Home Uncategorized Nicht zahlende Suchmaschinen können Reddit-Inhalte nicht indizieren

Nicht zahlende Suchmaschinen können Reddit-Inhalte nicht indizieren

33
0
Nicht zahlende Suchmaschinen können Reddit-Inhalte nicht indizieren

Als Reddit letzten Monat ankündigte, dass es die unbefugte Datenerfassung auf seiner Website blockieren würde, war die (vernünftige) erste Reaktion aller „KI, KI, KI.“ Da die Änderungen nun in Kraft treten, sind jedoch nicht nur Chatbot-Ersteller blockiert. Das weit verbreitete Forum scheint auch alle Suchmaschinen außer Google zu blockieren, das Berichten zufolge Anfang des Jahres einen Vertrag mit Reddit im Wert von 60 Millionen US-Dollar pro Jahr unterzeichnet hat.

404 Medien berichtete am Mittwoch (und Engadget bestätigte in unserer Anfrage), dass eine Suche nach Reddit-Ergebnissen von letzter Woche auf der Konkurrenzsuchmaschine Bing (unter Verwendung von „site:reddit.com“) leere Ergebnisse lieferte. Die Veröffentlichung berichtete, dass DuckDuckGo sieben Links ohne jegliche Beschreibung generierte und lediglich vermerkte: „Wir würden hier gerne eine Beschreibung anzeigen, aber die Website lässt dies nicht zu.“ Die Suchmaschine scheint es nun entfernt zu haben, da unsere Tests nur eine leere Seite mit der Meldung „Keine Ergebnisse gefunden“ zurückgaben.

Wenn Reddit sagte letzten Monat Da das Unternehmen sein Robot Exclusion Protocol (robots.txt) aktualisieren wird, um automatisiertes Daten-Scraping zu blockieren, ist jetzt klar, dass es nicht nur darauf abzielt, KI-Unternehmen wie Perplexity und seinen umstrittenen „Anrufbeantworter“ zu vereiteln. Derzeit scheint Google die einzige Suchmaschine zu sein, die Reddit crawlen und Ergebnisse von der „Startseite des Internets“ liefern darf.

Ironischerweise heißt es in einem Teil der robots.txt-Datei der Forum-Website: „Reddit glaubt an ein offenes Internet, aber nicht an den Missbrauch öffentlicher Inhalte.“ In der Einreichung auf Reddit heißt es nun grundsätzlich: „Nicht kratzen.“ Offenbar geht Reddit inzwischen davon aus, dass Suchmaschinen, die keine exklusiven Angebote kaufen, ihre Inhalte missbrauchen.

Die allgegenwärtige robots.txt ist ein Webstandard, der kommuniziert, welche Teile einer Website gecrawlt werden können. Obwohl bekannt ist, dass viele Crawler die Anweisungen ignorieren, ist es das Standardverfahren von Google, sich daran zu halten. Aus technischer Sicht scheinen die Unternehmen, die an dem lukrativen Geschäft beteiligt waren, einige manuelle Überschreibungen implementiert zu haben.

Natürlich ist diese Geschichte ein Nebeneffekt der KI-Chatbots, die das Live-Web nach Ergebnissen absuchen. Da die Gerichte nur langsam entscheiden, wie viel vom offenen Web als faire Nutzung für die Schulung von Chatbots anzusehen ist, errichten Unternehmen wie Reddit, deren Gewinne jetzt davon abhängen, ihre Daten vor denjenigen zu schützen, die nicht zahlen, Mauern auf Kosten des offenen Webs . (Angesichts der wichtigen Rolle, die Microsoft in dieser Ära der KI spielt, da es von Anfang an eine enge Beziehung zu OpenAI pflegte, erscheint es jedoch ironisch, dass Bing in mindestens einem Aspekt seines Einflusses auf der Verliererseite steht.)

Colin Hayhurst, CEO der wenig bekannten „No-Tracking“-Suchmaschine Mojeek, sagte 404 Medien dass Reddit „alles für die Suche zerstört, außer Google.“ Darüber hinaus sagte der Geschäftsführer, dass seine Versuche, Reddit zu kontaktieren, ignoriert wurden. „Das ist uns noch nie passiert“, sagte er. „Weil uns das passiert ist, wurden wir blockiert, meist aus Unwissenheit oder Dummheit oder was auch immer, und wenn wir die Seite kontaktiert haben, kann man das Problem natürlich lösen, aber wir haben noch nie etwas von irgendjemandem gehört.“

Engadget hat Google und Reddit um einen Kommentar und eine Bestätigung gebeten, aber zum Zeitpunkt der Drucklegung hatten wir noch keine Antwort erhalten. 404 Medien berichteten, dass sie bei Unternehmen auf eine ähnliche Mauer des Schweigens gestoßen seien.

Reddit hat keinen Hehl aus seinem Wunsch gemacht, KI-Unternehmen in dieser aufkommenden Ära der KI daran zu hindern, seine wertvollen Daten zu sammeln. Letztes Jahr riskierte CEO Steve Huffman, einen Großteil seiner Benutzerbasis zu verärgern, indem er API-Anfragen von Drittanbietern blockierte, was zum Untergang beliebter Apps wie Apollo von Christian Selig führte. Trotz des großen Aufschreis unter Moderatoren und Forumsbesuchern verlor das Unternehmen vorübergehend nur eine kleine Anzahl an Nutzern.

Das Wagnis schien sich auszuzahlen und Reddit erholte sich. Das Unternehmen ging im März an die Börse.

Source link