Home Uncategorized Experten warnen: KI, die aus ihrem eigenen Mist lernt, könnte sich selbst...

Experten warnen: KI, die aus ihrem eigenen Mist lernt, könnte sich selbst zerstören

23
0
Experten warnen: KI, die aus ihrem eigenen Mist lernt, könnte sich selbst zerstören

Untersuchungen zufolge können sich KI-Modelle verschlechtern und Originalinhalte innerhalb weniger Generationen in irreparablen Mist verwandeln veröffentlicht heute in Alam.

Aktuelle Studien verdeutlichen das zunehmende Risiko, dass KI-Modelle aufgrund von Selbsttraining zusammenbrechen, und betonen die Notwendigkeit originaler Datenquellen und einer sorgfältigen Datenfilterung.

Welche Arten von KI sind anfällig für einen Modellkollaps?

Ein Modellkollaps tritt auf, wenn ein Modell der künstlichen Intelligenz zu sehr auf KI-generierte Daten trainiert wird.

„Modellkollaps bezieht sich auf das Phänomen, dass ein Modell aufgrund wahllosen Trainings auf synthetischen Daten zusammenbricht“, sagte Ilia Shumailov, Forscherin an der Universität Oxford und Hauptautorin des Artikels, in einer E-Mail an Gizmodo.

Dem neuen Papier zufolge ignorieren generative KI-Tools wie große Sprachmodelle möglicherweise bestimmte Teile des Trainingsdatensatzes, was dazu führt, dass das Modell nur anhand einiger Daten trainiert wird.

Große Sprachmodelle (LLM) ist eine Art KI-Modell, das auf großen Datenmengen trainiert wird und es ihnen ermöglicht, die darin enthaltenen Informationen zu interpretieren und auf eine Vielzahl von Anwendungsfällen anzuwenden. LLMs sind im Allgemeinen darauf ausgelegt, Text zu verstehen und zu generieren, was sie als Chatbots und KI-Assistenten nützlich macht. Allerdings kann das Ignorieren von Textpassagen, die er angeblich gelesen und in seine Wissensdatenbank aufgenommen hat, ein LLM schnell in eine Hülle seiner selbst verwandeln, stellte das Forschungsteam fest.

„In den frühen Stadien des Modellzusammenbruchs verliert das erste Modell an Varianz und verliert an Leistung bei Minderheitendaten“, sagte Shumailov. „In der letzten Phase des Modellkollapses bricht das Modell vollständig zusammen.“ Während das Modell also weiterhin mit zunehmend ungenauerem und relevanterem Text trainiert, der vom Modell selbst generiert wird, führt diese rekursive Schleife dazu, dass das Modell degeneriert.

Fallstudie zum Modellkollaps: Die Kirche und das Kaninchen

Die Forscher liefern in dem Artikel ein Beispiel unter Verwendung eines Textgenerierungsmodells namens OPT-125m, das eine ähnliche Leistung wie GPT3 von ChatGPT aufweist, jedoch einen geringeren CO2-Fußabdruck aufweist. Menü HuggingFaceFalls Sie es nicht wussten: Das Modell ist mittelgroß verursacht den doppelten CO2-Ausstoß Lebenszeit eines durchschnittlichen Amerikaners.

Das Team hat in das Modell einen Text zum Thema Entwurf eines Kirchturms aus dem 14. Jahrhundert eingegeben. In der ersten Generation der Textausgabe lag das Modell weitgehend auf Kurs und diskutierte Gebäude, die unter verschiedenen Päpsten errichtet wurden. Allerdings adressiert das Modell in der neunten Generation der Textausgabe vor allem große Populationen von Schwarz-, Weiß-, Blau-, Rot- und Gelbschwanzkaninchen. Es ist zu beachten, dass es sich bei den meisten von ihnen nicht um echte Kaninchenarten handelt.

Der Modellkollaps wird immer kritischer, da KI-Inhalte das Web sättigen

Ein chaotisches Internet ist nichts Neues. Wie die Forscher in der Arbeit zeigen, produzierten Content-Farmen und Trolle im Internet lange bevor LLMs ein bekanntes Thema in der Öffentlichkeit wurden, Inhalte, um Suchalgorithmen dazu zu bringen, ihre Websites für Klicks zu priorisieren. KI-generierter Text kann jedoch schneller produziert werden als menschliches Kauderwelsch, was in größerem Umfang Anlass zur Sorge gibt.

„Während die Auswirkungen des KI-generierten Internets auf den Menschen abzuwarten bleiben, Shumailov dkk. „Berichten zufolge könnte die Verbreitung von KI-generierten Inhalten im Internet das Modell selbst ernsthaft untergraben“, schrieb Emily Wenger, Informatikerin an der Duke University, die sich auf Datenschutz und Sicherheit spezialisiert hat, in einem entsprechenden Artikel Nachrichten und Ansichten Artikel.

„Unter anderem stellt der Modellkollaps die Gerechtigkeit in der generativen KI vor Herausforderungen. „Zusammengebrochene Modelle ignorieren weniger häufige Elemente ihrer Trainingsdaten und spiegeln dadurch nicht die Komplexität und Nuancen der Welt wider“, fügte Wenger hinzu. „Dies erhöht das Risiko, dass Minderheitengruppen oder Standpunkte unterrepräsentiert oder möglicherweise ausgelöscht werden.“

Große Technologieunternehmen ergreifen verschiedene Maßnahmen, um die Menge an KI-generierten Inhalten zu reduzieren, die der durchschnittliche Internetsurfer sieht. Im März kündigte Google an, dass es seinen Algorithmus ändern werde, um Seiten zu priorisieren, die scheinbar für Suchmaschinen und nicht für menschliche Suchende entwickelt wurden; Die Ankündigung kam später 404 Medienbericht auf Google News, das KI-generierte Artikel fördert.

KI-Modelle können schwer zu kontrollieren sein, und die Autoren der aktuellen Studie betonen, dass der Zugriff auf die Originaldatenquellen und eine sorgfältige Datenfilterung in rekursiv trainierten Modellen dazu beitragen können, die Modelle auf Kurs zu halten.

Das Team schlägt außerdem vor, dass die Koordination innerhalb der an der Erstellung des LLM beteiligten KI-Community hilfreich sein könnte, um die Herkunft von Informationen zu verfolgen, während diese durch das Modell geleitet werden. „Andernfalls“, so das Fazit des Teams, „könnte es immer schwieriger werden, auf neueren Versionen des LLM zu trainieren, ohne auf gecrawlte Daten aus dem Internet zuzugreifen, bevor die Technologie massenhaft eingeführt wird oder direkt auf von Menschen erzeugte Daten in großem Maßstab zugreift.“

Oh schöne neue Welt, mit KI darin!

Source link