Wie aus Worten Bilder werden – mit DALL-E

Katze im Astronautenanazug schwebt im ALL

DALL-E – der Bild-Generator von OpenAI

Die rasante Entwicklung der Künstlichen Intelligenz (KI) hat in der letzten Zeit zu erstaunlichen Ergebnissen geführt. Eine bemerkenswerte Anwendung, die in der Welt der KI-gesteuerten Bildgenerierung herausragt, ist DALL-E, der kleine Bruder von ChatGPT. Beide wurden vom Unternehmen OpenAI entwickelt. Doch nicht nur das verbindet diese Tools. DALL-E basiert auf dem gleichen erfolgreichen Lernalgorithmus, den ChatGPT verwendet. Allerdings nutzt DALL-E diesen für die kreative Bildgenerierung. Mit erstaunlichen Ergebnissen.

DALL-E zeichnet sich als Bild-Generator dadurch aus, dass es nicht lediglich vordefinierte Bilder zusammensetzt, sondern die Fähigkeit besitzt, gänzlich neue, einzigartige Kreationen zu generieren. Genau dieser Fakt beunruhigte viele Künstler weltweit. Was folgte, war eine lebhafte Diskussion über die Folgen der Anwendung von DALL-E, die immer noch andauert.

Was ist DALL-E?

In erster Linie ist DALL-E ein Bild-Generator. Dieser basiert auf einem künstlichen neuronalen Netz, das darauf trainiert wurde, Bilder auf der Grundlage von textlichen Beschreibungen zu generieren, auch kurz „Text-zu-Bild-KI“ genannt. Ein wichtiger Baustein für den großen Erfolg dieser Anwendung: Jeder kann DALL-E nutzen, es sind keine spezifischen Vorkenntnisse erforderlich.

Der Name „DALL-E“ ist angelehnt am surrealistischen Künstler Salvador Dalí und dem Roboter EVE aus dem Pixar-Film „Wall-E“. Diese Namenswahl spiegelt die Fähigkeiten von DALL-E wider, surreale und oft futuristische Bilder zu erschaffen.

Funktionsweise DALL-E

DALL-E verwendet eine KI-Technik, deren Komponenten ständig voneinander lernen, um die Qualität der generierten Bilder zu verbessern. Die beeindruckende Fähigkeit von DALL-E liegt in seiner Kreativität. Es kann Bilder basierend auf vagen oder abstrakten Beschreibungen generieren. Beispielsweise könnte man nach „ein Zebra auf dem Mars“ fragen und DALL-E würde versuchen, ein Bild zu erstellen, welches dieser Beschreibung entspricht. Viele Nutzer geben zusätzlich den gewünschten Stil des Bildes mit an, z.B. Tusche, Foto oder Papierschnitt. Es gilt: je genauer und detaillierter die Beschreibung, desto treffender das Ergebnis.

Erweiterter Anwendungstipp:Wer seine Bildbeschreibung von ChatGPT verfassen lässt und diese dann im Textfenster von DALL-E verwendet, wird noch bessere Ergebnisse erzielen.

Welche Begrenzungen besitzt DALL-E (noch)?

Obwohl das Tool zahlreiche Vorteile bietet, gibt es je nach Anwendungsbereich noch einiges zu verbessern. So erfordert es gelegentlich mehrere Versuche, um ein gewünschtes Bild erfolgreich zu generieren. Teilweise scheitert DALL-E auch an einigen gestellten Aufgaben. Oder es treten merkwürdige Ergebnisse auf. Beispiele dafür: eine Hand mit sechs Fingern, eine falsch angelegte Spiegelung oder ein fehlender Arm. Es empfiehlt sich daher, das Ergebnis, je nach Anwendungsgrund, stets penibel zu überprüfen und ggf. zu korrigieren.

Ethik und Herausforderungen

Trotz der atemberaubenden Ergebnisse birgt DALL-E auch ethische Herausforderungen. Die Möglichkeit, täuschend echte Bilder von nichtexistierenden Szenarien zu erstellen, könnte zu Missbrauch führen, wie etwa gefälschte Nachrichten oder manipulierte Bilder. Bisher wurden bereits einige schützende Leitplanken innerhalb der Nutzung definiert und integriert. Zum Beispiel Sperrungen von einzelnen Wörtern, um die Erzeugung von gewalttätigen, erwachsenen oder hasserfüllten Inhalten zu verhindern. Auch die künstliche Bilderstellung von Politikern oder anderen Prominenten wird laut Hersteller OpenAI unterbunden.

Eine weitere Herausforderung ist die Abhängigkeit von einer umfangreichen Datenbank. DALL-E nutzt eine immense Datenbasis von Pixeln, um Bilder zu erstellen. Diese Daten wurden als Trainingsgrundlage genutzt. Laut OpenAI wurden die Quellen angefragt oder aber sie waren lizenzfrei nutzbar. Diese Angaben sind nicht zu überprüfen.

Urheberrecht

DALL-E bewegt sich derzeit – rechtlich gesehen – im Graubereich. Denn nach deutschem Recht kann nur eine menschliche Schöpfung urheberrechtlich geschützt werden.

Andererseits können auch die Anwender kein Urheberrecht in Anspruch nehmen. Warum? Ihre kreative Eigenleistung für das entstandene Bild ist schlicht zu gering. Es reicht nicht aus, etwas in das Textfenster von DALL-E einzugeben, ein Bild entsteht und der Nutzer besitzt ein Urheberrecht. Hier leistet DALL-E die kreative Hauptarbeit.

Derzeit beschäftigen sich Juristen aus aller Welt mit diesem „Problem“. Doch an einer einheitlichen Regelung sind sie – Stand heute – noch weit entfernt.

Fazit

DALL-E steht stellvertretend für die große Entwicklung in der Welt der Künstlichen Intelligenz. Die Fähigkeit, auf Textbeschreibungen basierende Bilder zu generieren, eröffnet neue Möglichkeiten in verschiedenen Bereichen. Während die Technologie viele Möglichkeiten bietet, gilt es auch ethische Fragen und Herausforderungen zu berücksichtigen.

So muss sichergestellt sein, dass die kreierten Ergebnisse verantwortungsbewusst eingesetzt werden und ein Missbrauch verhindert wird. Dies möchte der Hersteller, das Unternehmen OpenAI, durch die Überwachung des Einsatzes der KI und die Schaffung von Regeln und Maßnahmen erreichen. Zum Beispiel durch Sperrungen von einzelnen Wörtern, um die Erzeugung von gewalttätigen, erwachsenen oder hasserfüllten Inhalten zu stoppen. Ob es gelingt den Missbrauch der Anwendung zu verhindern, wird die Zukunft zeigen.

Tipp zur kostenlosen Verwendung von DALL-E

Wer nicht auf das kostenpflichtige Angebot vom Software-Hersteller OpenAI zurückgreifen möchte, hat eine Alternative: DALL-E ist kostenlos im Microsoft-Browser Bing integriert, mit kleinen Einschränkungen gegenüber der Vollversion. Wer den Bildgenerator ausprobieren möchte, hat hier die Gelegenheit dazu:
Link zum Bing Image Creator.

Wie aus Worten Bilder werden – mit DALL-E

INFORMATION UND BERATUNG

WEGBESCHREIBUNG