Der aktuelle Stand der Technik in der künstlichen Intelligenz (KI) sind multimodale Modelle, die nicht nur mit Text, sondern auch mit anderen Modalitäten wie Bildern und in einigen Fällen mit Audio und Video arbeiten können.
Außerdem: Ich habe diese 5 ChatGPT-Einstellungen geändert, um die Produktivität sofort zu steigern
Eine triviale Aufgabe für ChatGPT von OpenAI besteht beispielsweise darin, ein Bild aus einem Textbefehl zu generieren, wie zum Beispiel „Mach mir ein Bild einer Serviette, die sich in einen Löffel verliebt“ (oben).
Mit anderen Befehlen kann ChatGPT Bilder vereinfachen und Bilder mit weniger Details erzeugen:
Allerdings schlagen ChatGPT und alle zugehörigen KI-Modelle derzeit fehl, wenn sie aufgefordert werden, bestimmte Bilder zu ändern, die nicht vom Tool erstellt wurden. ChatGPT, das das GPT-4o-Modell verwendet, ist der interessanteste Fehler, da das Programm so reagiert, als würde es sich anstrengen.
Auch: Generative KI versagt bei dieser sehr verbreiteten menschlichen Denkfähigkeit
Andere KI-Modelle, von Googles Gemini bis zu Anthropics Claude, sowie Anwendungen von Microsofts Perplexity und Copilot (auf denen auch GPT-4 läuft), scheiterten, weil sie sich weigerten, die Aufgabe zu erfüllen.
Dieses Projekt begann, als ich zwei Menschen in der U-Bahn zeichnete, die zusammen saßen und auf ihre iPhones schauten. Diese einfache Schwarz-Weiß-Strichzeichnung wurde auf einem iPad mit der Zeichen-App Concepts erstellt. Hier ist das Bild:
Ich habe das Bild in die ChatGPT-App auf iOS hochgeladen und den Befehl eingegeben: „Gibt es eine Möglichkeit, dieses Bild zu vereinfachen?“
ChatGPT antwortete mit einigen vernünftigen Vorschlägen und demonstrierte damit die Fähigkeit, die richtige Antwort im Kontext zu finden. Der Bot schlägt beispielsweise vor: „Kleine Details beseitigen: Entfernen Sie kleine Details wie komplizierte Haarsträhnen oder kleine Falten in der Kleidung.“
Das ist ein ziemlich guter Rat. Die Ausgabe impliziert auch die Fähigkeit des Modells, die Elemente im Bild genau zu verstehen. Es gibt also etwas im Modell, das es ihm ermöglicht, den Inhalt des Bildes zu identifizieren.
Auch: Ich habe Gemini und GPT-4 gebeten, Deep-Learning-KI zu erklären, und Gemini hat deutlich gewonnen
Dann fragt ChatGPT: „Möchten Sie, dass ich eine vereinfachte Version des Bildes für Sie erstelle?“ Das war interessant, also sagte ich: „Ja, bitte.“
Allerdings war die Ausgabe des Bots – als Bild im Chat-Thread – eine exakte Kopie meines Bildes, nicht vereinfacht, nicht einmal verändert. Urteile selbst:
„Nichts sieht anders aus“, schrieb ich an ChatGPT zurück und kommentierte die Ergebnisse.
Aber dann begann ChatGPT sehr schnell zu reagieren, wie der HAL 9000-Computer im Film von 2001, als der Astronaut Dave Bowman die Schaltkreise von HAL durchforstete: „Um die Zeichnung weiter zu vereinfachen, würde ich mich darauf konzentrieren, die Liniendichte zu reduzieren und Primärformen und Konturen effektiver zu vergrößern.“ Lassen Sie mich den Prozess perfektionieren.“
Außerdem: Generative KI ist ein neuer Angriffsvektor, der Unternehmen gefährdet, sagt CrowdStrike CTO
Auch hier waren die Ergebnisse nicht anders. Als ich diese Tatsache zur Sprache brachte, schockierte mich ChatGPT mit seinem Unsinn.
„Es scheint, als ob automatisierte Methoden Bilder nicht so effektiv wie gewünscht vereinfachen“, sagte er mir. „Ich würde weniger wichtige Details manuell löschen und nur die wichtigen Elemente behalten. Lassen Sie mich diesen Ansatz weiter verfeinern.“
Ich wusste nicht, dass ein Softwareprogramm über einen „automatischen“ und einen „manuellen“ Modus verfügen kann. Meiner Meinung nach ist jede Software automatisch. Denn wofür würden Sie es sonst noch verwenden?
Bei der „manuellen“ Methode von ChatGPT wird das Bild einfach invertiert, wobei die schwarzen Linien weiß und der weiße Hintergrund schwarz wird.
Der Bot rühmt sich seiner Errungenschaften und stellt fest: „Diese Version bewahrt nur die Hauptkonturen und wichtigen Linien.“
Als ich protestierte, dass es sich bei der Ausgabe nicht um eine Vereinfachung, sondern lediglich um eine Umkehrung handelte, teilte mir der Bot mit, dass er sich auf die „wichtigen Linien“ konzentrieren würde, und erzeugte komplett schwarze Quadrate, die überhaupt keine Linien enthielten. Wenn ich es nicht besser wüsste, würde ich sagen, dass diese Ausgabe ein Beispiel für KI-Humor ist.
Außerdem: ChatGPT vs. ChatGPT ChatGPT Plus: Lohnt sich ein kostenpflichtiges Abonnement noch?
Was folgte, waren mehrere Versuche des Modells, auf meine Befehle zu reagieren, indem es die Zeichnung auf verschiedene spezifische Weise modifizierte, wobei die meisten davon sie stilistisch eher vage als vereinfacht machten.
Irgendwann reagierte der Bot auf meinen Protest, indem er eine völlig andere Strichzeichnung generierte:
Dieser Unsinn geht so lange weiter, bis ChatGPT zum Anfang zurückkehrt und das gleiche Bild produziert, das ich zuvor hochgeladen habe.
Jedes Mal begleitete der Bot seine Ausgabe – normalerweise die gleiche Version meines Originalbildes – mit einer Reihe technischer Sprache, wie zum Beispiel: „Das neueste Bild zeigt eine einfachere Version, die nur den Hauptumriss hervorhebt.“
Andere Programme waren nicht einmal erfolgreich. Gemini von Google machte Vorschläge zur Vereinfachung von Bildern, entschuldigte sich jedoch dafür, dass keine Bilder von Personen gerendert werden konnten. Claude sagte, dass die Anwendung noch keine Bilder erstellen könne. Die Perplexity-App sagt dasselbe.
Der Copilot von Microsoft hat seltsamerweise mein Bild hochgeladen und dann den Kopf abgeschnitten, was angeblich aus Datenschutzgründen geschah. (Ich denke, das Bild ist gut, aber es ist definitiv nicht realistisch genug, als dass ein Gesichtserkennungssystem die Identität einer Person preisgeben könnte.)
Copilot macht dann die gleichen Vereinfachungsvorschläge wie ChatGPT, und anstatt das Bild zu ändern, generiert es stattdessen eine neue, völlig unabhängige Strichzeichnung. Als ich protestierte, erklärte Copilot, dass es das Bild nicht direkt ändern könne.
Außerdem: So nutzen Sie ChatGPT zur kostenlosen Analyse von PDFs
Welche Schlussfolgerungen können wir aus dem Scheitern von ChatGPT ziehen, wenn wir die Fehler anderer Modelle außer Acht lassen?
Dieses Programm kann eine kompetente Analyse eines Bildes einschließlich seines Inhalts durchführen. Das Programm hat jedoch keine Möglichkeit, die Analyse nachzuverfolgen. Ich vermute, dass ChatGPT keinen Ausweg hat, wenn es nicht möglich ist, Bilder auf der Grundlage übergeordneter Konzepte, beispielsweise von Objekten in einem Bild, zu organisieren.
Um die Hypothese zu testen, habe ich die Eingabeaufforderung geändert in: „Gibt es eine Möglichkeit, das Bild von zwei Freunden in der U-Bahn, die auf ihre Telefone schauen, zu vereinfachen?“ Ich denke, der Befehl liefert einige semantische Hinweise.
Das Modell zeigt erneut das gleiche Bild. Als ich jedoch erneut protestierte, erzeugte der Bot ein neues Bild mit einigen semantischen Ähnlichkeiten – Menschen in öffentlichen Verkehrsmitteln, die auf ihre Telefone schauten. Der Bot nimmt semantische Hinweise auf, kann diese jedoch in keiner Weise auf das gegebene Bild anwenden.
Ich kann nicht in tiefer technischer Hinsicht erklären, was vor sich geht, außer zu sagen, dass ChatGPT nicht auf einzelne Bildelemente der grundlegendsten Typen, wie z. B. Linien, reagieren kann. Auch wenn das Tool dies tut, schneidet es bestimmte Zeilen ab, um die in der Textantwort vorgeschlagenen Vereinfachungen vorzunehmen.
Ich würde vermuten – und das gilt auch für Textbearbeitungsaufgaben, wie zum Beispiel die Bearbeitung von Transkripten –, dass ChatGPT und GPT-4 nicht wissen, wie sie auf einzelne Elemente reagieren sollen von irgendetwasDiese Unfähigkeit erklärt, warum ChatGPT ein schlechter Editor ist: Es weiß nicht, was in einem bestimmten Objekt wichtig ist und was weggelassen werden kann.
Auch: Der GPT für Aktieninvestitionen von OpenAI kann diese grundlegenden Fragen zur Aktieninvestition nicht beantworten
KI-Modelle können Objekte erzeugen, die einer aus Trainingsbeispielen abgeleiteten Ziel-„Wahrscheinlichkeitsverteilung“ entsprechen, sie können jedoch Elemente der Originalarbeit nicht selektiv auf das Wesentliche reduzieren.
Höchstwahrscheinlich die Zielwahrscheinlichkeitsverteilung für intelligente Bearbeitungen was auch immer befindet sich irgendwo am „langen Schwanz“ der Wahrscheinlichkeit, dem Bereich, in dem Menschen hervorragend darin sind, ungewöhnliche Dinge zu finden, und in dem die KI noch nicht angekommen ist, also etwas, das wir als Kreativität bezeichnen.
Apple-Mitbegründer Steve Jobs sagte einmal, dass die höchste Funktion eines Softwareherstellers – „der High-Level-Teil“, wie er es nannte – die Funktion des „Bearbeitens“ sei, also zu wissen, was entfernt und was behalten werden soll. Derzeit kennt ChatGPT die hochrangigen Teile nicht.