Kann ChatGPT zeichnen? – Das Experiment
In diesem Artikel widme ich mich der Frage: Kann ChatGPT zeichnen? In einem Experiment versuche ich die künstlerischen Fähigkeiten der neuen KI sinnvoll zu nutzen.
Kann ChatGPT zeichnen? – Das Experiment
ChatGPT wird als Sprachmodell bezeichnet und hat die primäre Aufgabe mit einem Menschen zu kommunizieren. Microsoft vereint in Bing auch andere KI Services. So kann man mit der Integration von DallE in Bing nun auch zeichnen. Genauer gesagt sagt man der KI, welches Ergebnis man sich vorstellt. Na hoffentlich klappt das auch.
ChatGPT kann nicht zeichnen
Ich konfrontiere ChatGPT nun einfach mit einer Anfrage und bekomme auch gleich eine korrekte Antwort. Als Entwickler würde man eine Fehlermeldung erwarten, in natürlicher Sprache ausgedrückt sieht das passend für ein Sprachmodell wie folgt aus:
Ich: „Für meinen Blog brauche ich ein Meme mit Katzen und Technik. Zeichne mir eines.“
Bing: „Ich bin ein Sprachmodell und kann nicht zeichnen. Aber ich kann Ihnen helfen, ein passendes Meme zu finden. Wollen Sie, dass ich für Sie suche?“
Analyse 1
Ich bin ziemlich beeindruckt, wie gut sich ChatGPT eignet um mit einem Menschen zu interagieren. Entwickler tendieren dazu Systeme zu bauen, die einen Funktionsumfang haben. Weicht man davon ab endet man üblicherweise bei teils kryptischen Fehlermeldungen. Genau da bildet ChatGPT den Mehrwert. Die Fehlermeldung wird in natürlichem Text ausgegeben, zusätzlich bietet das Modell für den Benutzer mit der Suche eine Alternative.
Da ich bereits weiß, dass Bing die Bildgenerierung als Funktion anbietet sehe ich hier noch ein Problem von ChatGPT. Bing verwendet ChatGPT und nutzt dessen Funktion. Bing bindet mittlerweile aber auch noch andere KI Modelle ein, wie DallE für die Bildgenerierung. Davon weiß ChatGPT noch nichts und kann folglich mir diese Funktion nicht anbieten bzw. darauf verlinken. Das wird sich vermutlich bald ändern.
Bing verwendet DallE
In der Tools Leiste von Bing im neuen Edge Browser findet man den Image Creator Button. Über diesen schaltet man den Assistenten um. Ähnlich wie bei ChatGPT erwartet dieser auch einen Text. Dieses mal soll man das gewünschte Bild mit Text beschreiben.
Ich: „Zeichne mir ein Meme mit Katzen und Technik für meinen Blog.“
Bing:
Analyse 2
Meine Anfrage war recht unspezifisch, folglich bekomme ich auch sehr unterschiedliche Ergebnisse. Diese treffen meine Erwartungen. Ich sehe unterschiedliche Ansätze und Stile. Was auffällt: bei Texten gibt es Probleme, denn wie bei den Bildern wird auch der Text gemalt. DallE ist kein Sprachmodell und kann deshalb diesen nicht verstehen. Genau wie andere grafische Elemente wird auch so eine Art von Text gemalt. Da ich ein Meme gewünscht habe, kann dieser beim Bild dabei sein.
Neuer Versuch ohne Text möglich?
Im neuen Versuch hätte ich gerne ähnliche Bilder ohne Text und fordere die KI an mir genau solche Bilder zu erstellen:
Ich: „Zeichne mir ein Meme mit Katzen und Technik für meinen Blog. Auf dem Bild soll kein Text sichtbar sein.“
Bing:
Analyse 3
Die neuerliche Anfrage liefert Bilder in ähnlichen grafischen Stilen wie die Suche zuvor. Auch dieses mal ist wieder eines mit Text dabei. Die beiden gut gefütterten Katzen lesen bestimmt meinen Blog, weshalb sie auch gleich das Titelbild dieses Beitrags sein dürfen.
Ersetzt die KI Stock Fotos?
Als Blogger suche ich oft Fotos die für einen Beitrag stehen. Man findet im Internet oft passende lizenzfreie Bilder. Eine viel größere Quelle sind aber Stock Fotos, für diese bekommt man gegen Entgelt eine Nutzungslizenz. Diese würde ich mir gerne sparen und würde dazu gerne die KI verwenden.
Ich: „Gib mit ein Foto von drei Programmierern die Kaffee trinken.“
Bing:
Analyse 4
Auf den ersten Blick bekomme ich die geforderten Bilder. Ich sehe viele Becher, ich sehe Menschen die dem Klischee von Software Entwicklern entsprechen (Brillen, Hoodies, Bärte) und Gender konform auch weibliche Entwickler. Interessanterweise kein gemischtes Bild. Müssen Entwickler nach Geschlecht getrennt arbeiten oder abhängen?
Auf den zweiten Blick offenbaren sich die Probleme, welche DallE aktuell noch beim Zeichnen von realistischen Menschen hat. Nehmen wir Bild Nummer 3:
Man erkennt, dass DallE weiß wie man Menschen zeichnet. Offenbar wird ein Körper verwendet, dieser mit einem Kopf ergänzt und diesem werden Kennzeichnen des Gesichts aus gelernten Formen ergänzt. So entstehen Bilder von Menschen die es real gar nicht gibt. Funktionieren tut das aber nur bedingt. Wir Menschen können sehr gut andere Menschen am Gesicht erkennen und sind deshalb sehr kritisch. Es fallen sofort alle Fehler auf. Merkwürdige Verzerrungen, unbekannte Gesichtsausdrücke und falsche Proportionen. Ganz krass wird das bei den Händen, die alle falsch aussehen. Zu viele, seltsam verkrüppelte oder unüblich lange Finger. Aus irgend einem Grund braucht der Kollege in der Mitte eine doppelte Dosis Kaffee.
So lächerlich diese Ergebnisse aktuell noch aussehen, so unheimlich ist die rasante Lernkurve. Ich habe ähnliche Experimente zuvor schon mit einer früheren Version von DallE gemacht und da sahen Menschen noch viel „verunstalteter“ aus. Ich bin mir sicher in einiger Zeit wird man keinen Unterschied mehr zu echten Fotos erkennen können.
Fazit
ChatGPT kann nicht zeichnen und kennt die Funktionen von Bing dazu auch nicht. Da Bing auch DallE einbindet kann man mit dem Edge Browser sehr wohl Bilder aus Text erzeugen. Ich habe gezeigt, dass man mit einigen Versuchen durchaus gute Ergebnisse erzielen kann. Bei Text und bei Menschen gibt es noch Defizite.
KI ist ein spannendes Thema. Damit kann man so viele Kunstwerke kreieren.