Home Uncategorized Meta sagt, dass Movie Gen einen „echten“ Fortschritt in der KI-Videoerstellung darstellt

Meta sagt, dass Movie Gen einen „echten“ Fortschritt in der KI-Videoerstellung darstellt

3
0
Meta sagt, dass Movie Gen einen „echten“ Fortschritt in der KI-Videoerstellung darstellt

Plattform-Meta

Wie gefälscht oder wie echt werden Videostreams mit immer größerer künstlicher Intelligenz (KI) produziert?

Es stellt sich heraus, dass es dafür ein quantitatives Maß gibt – oder zumindest fast. Der Mensch muss immer noch anhand seiner menschlichen Wahrnehmung entscheiden, ob ein Video gut ist oder nicht.

Außerdem: Neue Meta-Ray-Ban-KI-Funktion eingeführt, die Datenbrillen noch verlockender macht

Mark Zuckerberg, Inhaber von Meta Platforms, kündigte am Freitag ein neues KI-Modell namens an Filmgeneral die aus Textansagen HD-Videos (1080p-Auflösung) erzeugen kann. Das Unternehmen gibt an, dass diese Videos im Durchschnitt „realistischer“ sind als Videos, die mit konkurrierenden Technologien (wie dem Text-zu-Video-Modell Sora von OpenAI) erstellt wurden.

Es kann auch synchronisiertes Audio generieren, das Video so anpassen, dass es das Gesicht einer Person zeigt, und das Video dann automatisch mit nur Textbefehlen bearbeiten, z. B. „Ziehe dem Pinguin viktorianische Kleidung an“, um den Pinguin auf dem Bildschirm einzuhüllen.

Auch: OpenAI hat ein Text-zu-Video-Modell eingeführt und die Ergebnisse sind atemberaubend. Überzeugen Sie sich selbst

Im Begleitpapier „Movie Gen: A Cast of Media Foundation Models“ erklären Meta-KI-Forscher, wie sie Menschen gebeten haben, den Realismus von KI-generierten Videos zu bewerten:

Realität: Dies misst, welches der verglichenen Videos dem tatsächlichen Video am ähnlichsten ist. Für fantastische Hinweise, die außerhalb der Verteilung des Trainingssatzes liegen (z. B. die Darstellung von Fantasiewesen oder realen Szenen), definieren wir Realität als Nachahmung von Clips aus Filmen, die einem realistischen Kunststil folgen. Wir haben die Bewerter auch gebeten, die Gründe für ihre Entscheidungen anzugeben, zum Beispiel „Das Erscheinungsbild des Probanden wurde realistischer“ oder „Bewegungen wurden realistischer“.

Es gibt auch einen begleitenden Blogbeitrag.

Durch menschliche Tests wurden Gewinn-/Verlustwerte für Movie Gen im Vergleich zu Sora und drei anderen führenden Text-zu-Video-KI-Modellen, Runway Gen3, Lumalabs und Kling1.5, ermittelt.

Außerdem: Beste KI-Bildgeneratoren des Jahres 2024

Die Autoren weisen darauf hin, dass es noch nicht möglich ist, automatisch gute Vergleiche zu erhalten. Darüber hinaus „hängt die Beurteilung von Realität und Ästhetik weitgehend von der menschlichen Wahrnehmung und den Vorlieben ab“, schrieben sie.

Meta-2024-Film-Gen-Splash
Plattform-Meta

Nicht nur in Bezug auf den Realismus, sondern auch in Bezug darauf, wie gut die Bewegungen im Video sind, ob Teile einer Aktion übersprungen oder übersprungen werden und wie genau das Video eingegebenen Textbefehlen entspricht, seien Dinge, die man nicht automatisieren könne, hieß es.

„Wir haben festgestellt, dass bestehende automatisierte Metriken Schwierigkeiten hatten, zuverlässige Ergebnisse zu liefern, was die Notwendigkeit einer menschlichen Bewertung verstärkt.“

Der Benchmark misst, wie „Menschen die Ergebnisse unseres Modells denen konkurrierender Branchenmodelle vorziehen“, erklärt das Papier, was zu einer „Nettogewinnrate“ in Prozentform führt.

Außerdem: Diese Meta-Ray-Ban-Datenbrillen sind bisher mein liebstes Prime-Day-Angebot

Die durchschnittliche Siegquote gegen Sora liege bei 11,62 % der Fälle. Die Siegesquote gegen andere ist viel höher.

„Dieser bedeutende Nettogewinn demonstriert die Fähigkeit von Movie Gen Video, die reale Welt mit resultierenden Videos zu simulieren, die die Physik respektieren, mit Bewegung von angemessener Größe, aber dennoch konsistent und ohne Verzerrung.“

Sie bieten mehrere Beispiele für Video-Screenshots im direkten Gegensatz zu Sora. Wie die Autoren sehen, „ tendiert OpenAI Sora dazu, weniger realistische Videos zu produzieren (z. B. ein Cartoon-Känguru in der zweiten Reihe), sodass in Textbefehlen beschriebene Bewegungsdetails verloren gehen können (z. B. ein Roboter, der nicht in der unteren Reihe geht). Linie).”

Meta-2024-Film-Gen-versus-Sora
Plattform-Meta

Die Autoren erstellten ein KI-Modell für Filmgene aus einer sogenannten „Besetzung von Grundmodellen“.

Außerdem: Überraschenderweise schlägt Meta im Innovationskampf plötzlich Apple

In der Trainingsphase werden Bilder und Videos aus einer Mischung aus öffentlichen und lizenzierten Datensätzen komprimiert, bis das Modell lernt, Datenpixel effizient zu reproduzieren, sagen die Autoren. Wie sie es ausdrückten: „Wir kodieren den RGB-Pixelraum von Videos und Bildern in einen räumlich-zeitlich komprimierten latenten Raum, der mit dem Temporal Autoencoder (TAE) gelernt wurde, und lernen, in diesem latenten Raum Videos zu generieren.“

meta-2024-training-movie-gen

Meta verwendet mehrere Schritte, um nicht nur Videos zu produzieren, sondern auch Audio-, Personalisierungs- und Videobearbeitungsfunktionen zu synchronisieren.

Plattform-Meta

Die Videoerstellung wird dann von der Texteingabe „konditioniert“, um ein Modell zu erhalten, das Videos entsprechend den Textanforderungen produziert.

Diese Teile führten zu einem Modell mit 30 Milliarden Parametern – nach heutigen Trainingsstandards keine große Zahl.

Außerdem: Metas neues Quest 3S für 299 US-Dollar ist das VR-Headset, das die meisten Leute in dieser Weihnachtszeit kaufen sollten

Das zweite neuronale Netz namens „Film Gen Audio“ erzeugt High-Fidelity-Audio – allerdings für Soundeffekte und Musik, nicht für Sprache. Es baut auf einem bestehenden Ansatz namens „Diffusion Transformer“ mit 13 Milliarden Parametern auf.

All das erfordert viel Rechenleistung: „6.144 H100-GPUs, jede läuft mit 700 W TDP und mit 80 GB HBM3, unter Verwendung der Grand Teton AI Meta-Serverplattform.“

Movie Gen produziert nicht nur Videos. In einem nächsten Schritt trainierten die Autoren das Modell zusätzlich, um „personalisierte“ Videos zu erstellen, bei denen das Gesicht einer Person zwangsweise im Film erscheinen konnte.

Außerdem: ChatGPT ist mit Abstand das gefragteste KI-Tool, aber Platz zwei überrascht

Sie fügten außerdem eine letzte Komponente hinzu, die Möglichkeit, Videos mit nur einer Textaufforderung zu bearbeiten. Das Problem, mit dem die Autoren konfrontiert sind, besteht darin, dass „Videobearbeitungsmodelle durch den Mangel an überwachten Videobearbeitungsdaten behindert werden“, sodass es nicht genügend Beispiele gibt, um KI-Modelle bereitzustellen, mit denen sie trainiert werden können.

Um dies zu umgehen, griff das Team auf den Gen-AI-Modellfilm zurück und modifizierte ihn in mehreren Schritten. Zunächst nutzten sie Daten aus der Bildbearbeitung, um zu simulieren, was bei der Bearbeitung eines Videobildes abläuft. Sie haben es neben dem nativen Text-zu-Video-Training in das Modelltraining integriert, sodass das KI-Modell die Fähigkeit entwickelt hat, die Bearbeitung einzelner Bilder mit mehreren Videobildern zu koordinieren.

Im nächsten Abschnitt gibt der Autor dem Modell ein Video, Bildunterschriften wie „Jemand geht die Straße entlang“ und ein bearbeitetes Video und trainiert das Modell, Anweisungen zu generieren, die zu Änderungen gegenüber dem Originalvideo führen. zum bearbeiteten Video. Mit anderen Worten: Sie zwingen das KI-Modell, Anweisungen mit dem veränderten Video zu verknüpfen.

Außerdem: Die 4 größten Herausforderungen von KI-generiertem Code, die Gartner in seinem neuesten Bericht nicht berücksichtigt hat

Um die Videobearbeitungsfähigkeiten zu testen, hat der Autor einen neuen Benchmark-Test zusammengestellt, der darauf basiert 51.000 Videos, gesammelt von Meta-Forschern. Sie beschäftigen auch Crowdworker, um Bearbeitungsanweisungen zu erstellen.

Um die Videobearbeitung zu bewerten, bat das Meta-Team menschliche Prüfer, zu beurteilen, welche Videos besser waren: Videos, die mit ihren KI-Modellen erstellt wurden oder mit vorhandener hochmoderner Technologie. Sie verwendeten auch automatisierte Maßnahmen, um Vorher- und Nachher-Videos in der Aufgabe zu vergleichen.

Auch: Diese KI-Avatare verfügen jetzt über menschenähnliche Ausdrücke

„Menschliche Bewerter bevorzugten Filmbearbeitungen gegenüber allen Basislinien deutlich“, schrieben die Autoren.

In all diesen Schritten leisten die Autoren Pionierarbeit bei der Koordinierung der Größe des Daten-KI-Modells und des verwendeten Rechenaufwands. „Wir haben herausgefunden, dass die Skalierung der Trainingsdaten, Berechnungen und Modellparameter eines einfachen Transformer-basierten Modells, das mit Flow Matching trainiert wurde, ein qualitativ hochwertiges generatives Modell für Video oder Audio erzeugt.“

Allerdings geben die Autoren zu, dass menschliche Bewertungen ihre Tücken haben. „Die Definition objektiver Kriterien zur Bewertung von Modellgenerationen mithilfe menschlicher Bewertung ist immer noch eine Herausforderung, und daher kann die menschliche Bewertung durch eine Reihe anderer Faktoren wie persönliche Voreingenommenheit, Hintergrund usw. beeinflusst werden.“

Außerdem: Pearson führt neue KI-Zertifizierung ein – mit Fokus auf den praktischen Einsatz am Arbeitsplatz

Dieses Papier enthält keine Vorschläge zum Umgang mit solchen menschlichen Vorurteilen. Meta gab jedoch an, dass es Benchmark-Tests zur Nutzung durch andere veröffentlichen würde, ohne einen Zeitrahmen bekannt zu geben:

Um die Videoerzeugung gründlich zu bewerten, schlagen wir vor und hoffen, einen Benchmark, Movie Gen Video Bench, zu veröffentlichen, der aus Tausenden von Benchmarks besteht, die alle oben zusammengefassten verschiedenen Testaspekte abdecken. Unser Maßstab liegt bei mehr als 3 größer als der in früheren Arbeiten verwendete Eingabeaufforderungssatz.

Das Unternehmen versprach außerdem, seine Videos irgendwann zur öffentlichen Einsichtnahme anzubieten: „Um einen fairen und einfachen Vergleich mit Film-Gen-Videos für zukünftige Arbeiten zu ermöglichen, hoffen wir, unsere nicht von Kirschen generierten Videos, die für Film-Gen-Videos unserer Ersatzgene produziert wurden, öffentlich zu veröffentlichen.“ .“

Außerdem: Können synthetische Daten KI-Datenschutzprobleme lösen? Darauf setzt das Unternehmen

Laut Meta ist das Movie-Gen-Modell noch nicht umgesetzt. Am Ende des Papiers schreiben die Autoren, dass alle KI-Modelle „eine Menge Verfeinerung erfordern, bevor sie implementiert werden“. Beispielsweise leiden die vom Modell generierten Videos „immer noch unter Problemen wie Artefakten in Videos, die rund um komplexe Geometrie, Objektmanipulation, Objektphysik, Zustandstransformationen usw. erstellt oder bearbeitet wurden“. Der Ton „gerät manchmal nicht mehr synchron, wenn die Bewegung eng ist“, wie etwa bei Stepptanzvideos.

Trotz dieser Einschränkungen könnte Movie Gen eines Tages einen Weg zu einer vollständigen Videoerstellungs- und Bearbeitungssuite vorschlagen und sogar Video-Podcasts an sein eigenes Vorbild anpassen.

Source link