Home Uncategorized Hüten Sie sich vor dem „Modellkollaps“ der KI: Wie das Training auf...

Hüten Sie sich vor dem „Modellkollaps“ der KI: Wie das Training auf synthetischen Daten die nächste Generation verunreinigt

29
0
Hüten Sie sich vor dem „Modellkollaps“ der KI: Wie das Training auf synthetischen Daten die nächste Generation verunreinigt

Foto von Evgeny Ostroushko/Getty Images

Um den endlosen Wunsch der generativen künstlichen Intelligenz (KI-Gen) nach Daten zu befriedigen, haben Forscher in den letzten Jahren zunehmend versucht, „synthetische“ Daten zu erstellen, die den menschlichen Schöpfungen ähneln, die zum Trainieren von KI-Modellen verwendet wurden, aber von ihnen erstellt wurden KI selbst.

Die Bewegung synthetischer Daten beschleunigt sich aufgrund von Urheberrechtsverletzungen in Bezug auf menschenbasierte Trainingsdaten und auch, weil die Anforderungen zum Trainieren immer besserer Modelle möglicherweise irgendwann die Verfügbarkeit von menschengenerierten Daten übersteigen.

Auch: 3 Gründe, warum Meta Llama 3.1 ein Fortschritt für Gen AI ist

Beispielsweise nutzten die Forscher in Metas Flaggschiff-Open-Source-Modell Llama 3.1 405B, das das Unternehmen letzte Woche vorstellte, in großem Umfang synthetische Daten, um das Modell zu „feinabstimmen“ und das gesammelte menschliche Feedback zu ergänzen.

Allerdings gibt es einen Haken. Experten der Universität Oxford warnen Die neueste Ausgabe der renommierten Wissenschaftszeitschrift Nature dass die Verwendung solcher synthetischen Daten zum Trainieren der Gen-KI die Genauigkeit des Modells drastisch verringern kann, bis es unbrauchbar wird.

model-ai-collapsed

Wissenschaftler der Universität Oxford haben die Ergebnisse eines großen Sprachmodells in ein Trainingsprogramm für nachfolgende Modelle eingespeist, was letztendlich dazu führte, dass das Modell nach mehreren Generationen Unsinn produzierte.

Universität Oxford

In dem Artikel erklären Hauptautor Ilia Shumailov und sein Team, was sie „Modellkollaps“ nennen und wie es jedes Mal schlimmer wird, wenn ein Modell falsche Daten in nachfolgende Modelle einspeist.

Außerdem: Googles DeepMind AI holt Silbermedaille im komplexen Mathematikwettbewerb

„Modellkollaps ist ein degenerativer Prozess, der sich auf die Generierung erlernter generativer Modelle auswirkt, wobei die resultierenden Daten letztendlich den Trainingssatz der nächsten Generation verunreinigen“, schrieb Shumailovs Team. „Aufgrund manipulierter Daten missverstehen sie dann die Realität.“

oxford-2024-reducing-confusion-in-model-collapse

Verteilungsverschiebungen treten auf, wenn sich die Wahrscheinlichkeit einer bestimmten Antwort mit Änderungen im KI-Modell ändert. In der Grafik verschiebt sich die Kurve der Version des KI-Modells der neunten Generation nach links, sodass die „Verwirrung“, die Vielfalt der Antworten, weniger wird und allgemeinere Antworten die Oberhand gewinnen, was die Qualität der Antworten des Modells verringert.

Universität Oxford

Insbesondere verlieren die Modelle im Laufe der Generationen den Überblick über weniger verbreitete Fakten und werden immer allgemeiner. Wenn das passiert, werden die resultierenden Antworten völlig irrelevant für die gestellten Fragen und verwandeln sich in bloßen Unsinn. „Modelle beginnen mit der Zeit, unwahrscheinliche Ereignisse zu vergessen, da sie durch ihre eigenen Projektionen der Realität vergiftet werden“, schrieben sie.

Die Autoren schrieben, dass die Ergebnisse „ernsthaft genommen werden müssen“, da neue Generationen von KI einem immer schwerwiegenderen Verfallsprozess ausgesetzt sind, da das Internet mit KI-Modellergebnissen überschwemmt wird, die dann wiederverwendet werden. „Der groß angelegte Einsatz von LLMs zur Veröffentlichung von Inhalten im Internet wird die Datensammlung zur Schulung ihrer Nachfolger verunreinigen: Daten über menschliche Interaktionen mit LLMs werden immer wertvoller“, schrieben sie.

Auch: OpenAI bietet GPT-4o mini an, um die Anwendungskosten zu senken

Um zu diesen Schlussfolgerungen zu gelangen, führten die Autoren Experimente mit dem Open-Source-KI-Modell OPT von Meta für einen „offenen vorab trainierten Transformator“ durch. im Jahr 2022 eingeführtDie Struktur ähnelt dem GPT-3 von OpenAI, ist jedoch mit nur 125 Millionen neuronalen Parametern oder „Gewichten“ viel kleiner.

Shumailovs Team nutzte den Wikitext2-Datensatz von Wikipedia-Artikeln, um OPT zu „feinabstimmen“, das heißt, es mit zusätzlichen Daten neu zu trainieren, eine sehr gängige Praxis in der Gen-KI. Anschließend verwendeten die Autoren das verfeinerte OPT, um eine synthetische Kopie der Wikitext-Daten zu erstellen, und führten diese neuen gefälschten Daten anschließenden Verfeinerungsoperationen zu, eine Art kannibalistische Nutzung der Ausgabe eines Modells als Eingabe eines anderen Modells.

Die Autoren geben ein Beispiel dafür, was passierte, nachdem jedes verfeinerte Modell fünf Runden lang als Ressource zum Unterrichten des nächsten Modells verwendet wurde: In der fünften Generation war das Modell völliger Unsinn. Gleichzeitig, schreiben sie, würden bestimmte Tatsachenfehler mit jeder Generation häufiger: „Wir stellen fest, dass das Modell (…) von Generation zu Generation beginnt, seine eigene Ordnung von Unmöglichkeiten einzuführen, nämlich Fehler.“

Oxford-u-2024-Beispielmodell-Unsinn

Ein Beispiel dafür, wie ein KI-Modell nach nur fünf Trainingsiterationen mit der Ausgabe des vorherigen Modells zusammenbricht.

Universität Oxford

Die Autoren reflektieren darüber, was getan werden kann, um den Zusammenbruch des Modells zu verhindern, und beenden ihren Artikel mit einer bedrohlichen Bemerkung. Es ist wichtig, die ursprünglichen, von Menschen erzeugten Trainingsdaten beizubehalten und auch ständigen Zugriff auf neue, von Menschen erzeugte Daten zu haben. Dies wird jedoch immer schwieriger, da synthetische Daten aus neuen Generationen von KI zunehmend das Internet füllen und eine Art verlorenes Internet von schaffen die Vergangenheit.

nature-magazine-cover-july-25-2024.png
Alam

Sie warnen: „Es könnte immer schwieriger werden, auf neueren Versionen des LLM zu trainieren, ohne Zugriff auf durchsuchte Daten aus dem Internet zu haben, bevor die Technologie massenhaft eingeführt wird oder direkt auf von Menschen erzeugte Daten in großem Maßstab zugreift.“

Die Herausgeber des Magazins fassten das Problem vielleicht am prägnantesten mit dem alten Data-Science-Sprichwort zusammen, das sie auf das Cover geklebt hatten: „Müll rein, Müll raus.“

Source link