Home Uncategorized Berichten zufolge verwendeten Apple, NVIDIA und Anthropic nicht lizenzierte YouTube-Transkripte, um KI-Modelle...

Uncategorized

Berichten zufolge verwendeten Apple, NVIDIA und Anthropic nicht lizenzierte YouTube-Transkripte, um KI-Modelle zu trainieren

Martina Jr.

July 16, 2024

Einige der weltweit größten Technologieunternehmen haben ihre KI-Modelle anhand von Datensätzen trainiert, die Transkripte von mehr als 173.000 nicht lizenzierten YouTube-Videos enthalten. neue Untersuchung aus Nachrichtenbeweise wurden gefunden. Der von einem gewinnorientierten Unternehmen namens EleutherAI erstellte Datensatz enthält YouTube-Videotranskripte von mehr als 48.000 Kanälen und wird unter anderem von Apple, NVIDIA und Anthropic verwendet. Die Ergebnisse der Untersuchung verdeutlichen eine unbequeme Wahrheit über KI: Die Technologie basiert größtenteils auf Daten, die von Urhebern ohne deren Zustimmung oder Vergütung gesammelt werden.

Dieser Datensatz enthält keine Videos oder Bilder von YouTube, sondern Videotranskripte der größten YouTuber der Plattform, darunter Marques Brownlee und MrBeast, sowie großer Nachrichtenverlage wie Zeitung der New York TimesDas Indonesisch: BBCUnd abc NachrichtenAuch Untertitel aus Engadgets Videos sind Teil des Datensatzes.

„Apple hat Daten für seine KI von mehreren Unternehmen übernommen“, sagte Brownlee Gepostet auf X„Einer von ihnen hat viele Daten/Transkripte von YouTube-Videos mitgenommen, darunter auch meines“, fügte er hinzu. „Das wird noch lange ein wachsendes Problem sein.“

Apple hat Daten für seine KI von mehreren Unternehmen übernommen

Einer von ihnen hat viele Daten/Transkripte von YouTube-Videos übernommen, darunter auch von mir

Apple hat hier technisch gesehen eine „Schuld“ vermieden, da sie nicht diejenigen waren, die das Scraping durchführten

Dies wird jedoch ein Problem sein, das über einen langen Zeitraum hinweg immer größer wird https://t.co/U93riaeSlY

—Marques Brownlee (@MKBHD) 16. Juli 2024

YouTube, Apple, NVIDIA, Anthropic und EleutherAI antworteten nicht auf die Bitte von Engadget um einen Kommentar.

Bisher waren KI-Unternehmen nicht transparent über die Daten, die zum Trainieren ihrer Modelle verwendet wurden. Anfang dieses Monats kritisierten Künstler und Fotografen Apple dafür, dass es die Quelle der Trainingsdaten für Apple Intelligence nicht offengelegt habe, die generative KI-Entwicklung des Unternehmens, die dieses Jahr auf Millionen von Apple-Geräten verfügbar sein wird.

Insbesondere YouTube ist das weltweit größte Video-Repository und speichert nicht nur Transkripte, sondern auch Audio, Video und Bilder, was es zu einem attraktiven Datensatz für das Training von KI-Modellen macht. Anfang dieses Jahres sagte Mira Murati, Chief Technology Officer von OpenAI: Vermeiden Sie Fragen aus Wallstreet Journal darüber, ob das Unternehmen YouTube-Videos verwendet hat, um Sora, das kommende KI-Videoerstellungstool von OpenAI, zu trainieren. „Ich werde nicht auf die Details der verwendeten Daten eingehen, aber es handelt sich um öffentlich verfügbare Daten oder lizenzierte Daten“, sagte Murati damals. Guter YouTube-CEO Neal Mohan und CEO von Alphabet Sundar Pichai sagte, dass Unternehmen, die Daten von YouTube verwenden, um ihre KI-Modelle zu trainieren, einen Verstoß gegen die Nutzungsbedingungen der Plattform darstellen.

Wenn Sie sehen möchten, ob Untertitel aus Ihren YouTube-Videos oder Ihren Lieblingskanälen Teil des Datensatzes sind, besuchen Sie Proof News Suchwerkzeug.

Source link

RELATED ARTICLESMORE FROM AUTHOR

Staatsbürgerschaft: eine Diskussion jenseits der Politik

Yahaya Bello: Gericht gibt dem Antrag der EFCC auf Vertagung statt und setzt den 14. November 20 für die Antwort auf die Vorladung fest

Neue Rabattaktion für Mitsubishi XForce und Pajero Sport

RELATED ARTICLES MORE FROM AUTHOR