Home Uncategorized Aufgrund von Beschränkungen, die das Netzwerk schließen, ging der Scraper-KI der Speicherplatz...

Aufgrund von Beschränkungen, die das Netzwerk schließen, ging der Scraper-KI der Speicherplatz aus

27
0
Aufgrund von Beschränkungen, die das Netzwerk schließen, ging der Scraper-KI der Speicherplatz aus

KI-Scraper sind zunehmend mit einer feindseligen Online-Umgebung konfrontiert, da die Datenquellen immer knapper werden.

Durch das Crawlen von Daten, auch Scraping genannt, konnten große Sammlungen von Texten, Bildern und Videos ohne großen Aufwand aus dem Internet abgerufen werden. KI-Modelle können mit scheinbar unbegrenzten Ressourcen trainiert werden, aber das ist nicht mehr der Fall.

Eine Studie des Think Tanks KI-Forschung Initiative zur DatenherkunftDas sogenannte „Consent In Crisis“ hat herausgefunden, dass eine feindliche Umgebung nun auf Website-Scraper wartet, insbesondere auf diejenigen, die generative KI entwickeln.

Forscher untersuchten die Domänen, die in den drei wichtigsten Datensätzen zum Trainieren von KI-Modellen verwendet werden, und die Daten sind jetzt eingeschränkter als je zuvor.

Bei der Bewertung von 14.000 Web-Domains wurde festgestellt, dass eine „aufkommende Genehmigungskrise“ vorliegt, da Online-Publisher auf die Anwesenheit von Crawlern und die Datenerfassung reagieren. Die Forscher stellten in drei Datensätzen – bekannt als C4, RefinedWeb und Dolman – dar, dass etwa 5 % aller Daten und 25 % der Inhalte aus den besten Quellen Beschränkungen auferlegten.

Insbesondere die GPTBot- und Google-Extended-Crawler von OpenAI lösten eine Gegenreaktion von Websites aus, die ihre robot.txt-Einschränkungen änderten. Die Studie ergab, dass zwischen 20 und 33 Prozent der Top-Webdomains umfangreiche Beschränkungen für Scraper eingeführt hatten, verglichen mit deutlich geringeren Zahlen zu Beginn des letzten Jahres.

Hartes Crawlen führt zu einem vollständigen Verbot

Im gesamten Domain-Bereich haben 5–7 % Beschränkungen verhängt, gegenüber nur 1 % im gleichen Zeitraum.

Es wird darauf hingewiesen, dass viele Websites ihre Nutzungsbedingungen geändert haben, um das Crawlen und Abrufen von Inhalten zur Verwendung in generativer KI vollständig zu verbieten, jedoch nicht in dem Maße, dass robots.txt eingeschränkt wird.

KI-Unternehmen haben möglicherweise Zeit und Ressourcen durch übermäßiges Crawling verschwendet, das möglicherweise nicht notwendig war. Die Forscher zeigten, dass sich zwar etwa 40 % der in allen drei Datensätzen am häufigsten verwendeten Websites auf Nachrichten bezogen, sich aber mehr als 30 % der ChatGPT-Anfragen auf kreatives Schreiben bezogen, verglichen mit nur 1 % mit Nachrichten.

Weitere wichtige Anfragen sind Übersetzungen, Codierungshilfe und sexuelle Rollenspiele.

Bildnachweis: Via Ideogram

Source link