Um den endlosen Wunsch der generativen künstlichen Intelligenz (KI-Gen) nach Daten zu befriedigen, haben Forscher in den letzten Jahren zunehmend versucht, „synthetische“ Daten zu erstellen, die den menschlichen Schöpfungen ähneln, die zum Trainieren von KI-Modellen verwendet wurden, aber von ihnen erstellt wurden KI selbst.
Die Bewegung synthetischer Daten beschleunigt sich aufgrund von Urheberrechtsverletzungen in Bezug auf menschenbasierte Trainingsdaten und auch, weil die Anforderungen zum Trainieren immer besserer Modelle möglicherweise irgendwann die Verfügbarkeit von menschengenerierten Daten übersteigen.
Auch: 3 Gründe, warum Meta Llama 3.1 ein Fortschritt für Gen AI ist
Beispielsweise nutzten die Forscher in Metas Flaggschiff-Open-Source-Modell Llama 3.1 405B, das das Unternehmen letzte Woche vorstellte, in großem Umfang synthetische Daten, um das Modell zu „feinabstimmen“ und das gesammelte menschliche Feedback zu ergänzen.
Allerdings gibt es einen Haken. Experten der Universität Oxford warnen Die neueste Ausgabe der renommierten Wissenschaftszeitschrift Nature dass die Verwendung solcher synthetischen Daten zum Trainieren der Gen-KI die Genauigkeit des Modells drastisch verringern kann, bis es unbrauchbar wird.
In dem Artikel erklären Hauptautor Ilia Shumailov und sein Team, was sie „Modellkollaps“ nennen und wie es jedes Mal schlimmer wird, wenn ein Modell falsche Daten in nachfolgende Modelle einspeist.
Außerdem: Googles DeepMind AI holt Silbermedaille im komplexen Mathematikwettbewerb
„Modellkollaps ist ein degenerativer Prozess, der sich auf die Generierung erlernter generativer Modelle auswirkt, wobei die resultierenden Daten letztendlich den Trainingssatz der nächsten Generation verunreinigen“, schrieb Shumailovs Team. „Aufgrund manipulierter Daten missverstehen sie dann die Realität.“
Insbesondere verlieren die Modelle im Laufe der Generationen den Überblick über weniger verbreitete Fakten und werden immer allgemeiner. Wenn das passiert, werden die resultierenden Antworten völlig irrelevant für die gestellten Fragen und verwandeln sich in bloßen Unsinn. „Modelle beginnen mit der Zeit, unwahrscheinliche Ereignisse zu vergessen, da sie durch ihre eigenen Projektionen der Realität vergiftet werden“, schrieben sie.
Die Autoren schrieben, dass die Ergebnisse „ernsthaft genommen werden müssen“, da neue Generationen von KI einem immer schwerwiegenderen Verfallsprozess ausgesetzt sind, da das Internet mit KI-Modellergebnissen überschwemmt wird, die dann wiederverwendet werden. „Der groß angelegte Einsatz von LLMs zur Veröffentlichung von Inhalten im Internet wird die Datensammlung zur Schulung ihrer Nachfolger verunreinigen: Daten über menschliche Interaktionen mit LLMs werden immer wertvoller“, schrieben sie.
Auch: OpenAI bietet GPT-4o mini an, um die Anwendungskosten zu senken
Um zu diesen Schlussfolgerungen zu gelangen, führten die Autoren Experimente mit dem Open-Source-KI-Modell OPT von Meta für einen „offenen vorab trainierten Transformator“ durch. im Jahr 2022 eingeführtDie Struktur ähnelt dem GPT-3 von OpenAI, ist jedoch mit nur 125 Millionen neuronalen Parametern oder „Gewichten“ viel kleiner.
Shumailovs Team nutzte den Wikitext2-Datensatz von Wikipedia-Artikeln, um OPT zu „feinabstimmen“, das heißt, es mit zusätzlichen Daten neu zu trainieren, eine sehr gängige Praxis in der Gen-KI. Anschließend verwendeten die Autoren das verfeinerte OPT, um eine synthetische Kopie der Wikitext-Daten zu erstellen, und führten diese neuen gefälschten Daten anschließenden Verfeinerungsoperationen zu, eine Art kannibalistische Nutzung der Ausgabe eines Modells als Eingabe eines anderen Modells.
Die Autoren geben ein Beispiel dafür, was passierte, nachdem jedes verfeinerte Modell fünf Runden lang als Ressource zum Unterrichten des nächsten Modells verwendet wurde: In der fünften Generation war das Modell völliger Unsinn. Gleichzeitig, schreiben sie, würden bestimmte Tatsachenfehler mit jeder Generation häufiger: „Wir stellen fest, dass das Modell (…) von Generation zu Generation beginnt, seine eigene Ordnung von Unmöglichkeiten einzuführen, nämlich Fehler.“
Die Autoren reflektieren darüber, was getan werden kann, um den Zusammenbruch des Modells zu verhindern, und beenden ihren Artikel mit einer bedrohlichen Bemerkung. Es ist wichtig, die ursprünglichen, von Menschen erzeugten Trainingsdaten beizubehalten und auch ständigen Zugriff auf neue, von Menschen erzeugte Daten zu haben. Dies wird jedoch immer schwieriger, da synthetische Daten aus neuen Generationen von KI zunehmend das Internet füllen und eine Art verlorenes Internet von schaffen die Vergangenheit.
Sie warnen: „Es könnte immer schwieriger werden, auf neueren Versionen des LLM zu trainieren, ohne Zugriff auf durchsuchte Daten aus dem Internet zu haben, bevor die Technologie massenhaft eingeführt wird oder direkt auf von Menschen erzeugte Daten in großem Maßstab zugreift.“
Die Herausgeber des Magazins fassten das Problem vielleicht am prägnantesten mit dem alten Data-Science-Sprichwort zusammen, das sie auf das Cover geklebt hatten: „Müll rein, Müll raus.“