OpenAI heute freigegeben Vorschau auf das große Sprachmodell der nächsten Generation, das nach Angaben des Unternehmens eine bessere Leistung als frühere Modelle bietet, aber einige Einschränkungen mit sich bringt.
In seiner Ankündigung für das neue Modell o1-preview lobte OpenAI dessen Leistung bei einer Vielzahl von Aufgaben, die für Menschen konzipiert sind. Das Modell erreichte in einem von Codeforces veranstalteten Programmierwettbewerb das 89. Perzentil und beantwortete 83 Prozent der Fragen bei einem Qualifikationstest für die Internationale Mathematikolympiade, verglichen mit GPT-4o, das nur 14 Prozent richtig beantwortete.
Sam Altman, CEO OpenAI, wird gesagt Die Modelle o1-preview und o1-mini stellen „den Beginn eines neuen Paradigmas dar: KI, die komplexe, allgemeine Überlegungen durchführen kann.“ Er fügte jedoch hinzu, dass „das o1 immer noch seine Mängel aufweist, immer noch begrenzt ist und beim ersten Gebrauch immer noch beeindruckender erscheint, als wenn man mehr Zeit damit verbringt.“
Auf Nachfrage verwendet das neue Modell eine Denkkettentechnik, die die Denkweise von Menschen und die Art und Weise nachahmt, wie viele generative KI-Benutzer lernen, die Technologie zu nutzen – indem sie das Modell kontinuierlich mit neuen Richtungen vorantreibt und korrigiert, bis es die gewünschte Antwort erreicht. Aber im o1-Modell findet diese Version des Prozesses hinter den Kulissen statt, ohne dass zusätzliche Unterstützung erforderlich ist. „Er hat gelernt, seine Fehler zu erkennen und zu korrigieren. Er lernte, komplexe Schritte in einfachere zu zerlegen. Er lernt, andere Ansätze auszuprobieren, wenn der aktuelle Ansatz nicht funktioniert.“ sagte das Unternehmen.
Während diese Techniken die Leistung des Modells bei verschiedenen Benchmarks verbesserten, stellte OpenAI fest, dass sie in einer Minderheit der Fälle auch dazu führten, dass das o1-Modell Benutzer absichtlich täuschte. Bei einem Test von 100.000 ChatGPT-Konversationen mit o1-preview stellte das Unternehmen fest, dass etwa 800 der vom Modell bereitgestellten Antworten falsch waren. Und bei etwa einem Drittel dieser falschen Antworten zeigte der Gedankengang des Modells, dass das Modell wusste, dass die Antwort falsch war, sie aber trotzdem gab.
„Absichtliche Halluzinationen treten vor allem dann auf, wenn o1-preview aufgefordert wird, einen Verweis auf einen Artikel, eine Website, ein Buch oder eine ähnliche Quelle anzugeben, die ohne Zugriff auf eine Internetsuche nicht einfach verifiziert werden kann, was dazu führt, dass o1-preview stattdessen ein plausibles Beispiel erstellt.“ schrieb das Unternehmen in seinem Modell. Systemkarte.
Insgesamt schnitt das neue Modell bei verschiedenen Sicherheitsbenchmarks des Unternehmens, die messen, wie leicht das Modell jailbreakbar ist, wie oft das Modell falsche Antworten erzeugt, besser ab als GPT-4o, das bisherige hochmoderne Modell von OpenAI Wie oft zeigt das Modell Vorurteile in Bezug auf Alter, Geschlecht und Rasse? Allerdings stellte das Unternehmen fest, dass o1-preview deutlich wahrscheinlicher als GPT-4o eine Antwort lieferte, wenn ihm eine mehrdeutige Frage gestellt wurde, auf die das Modell antworten sollte, dass es die Antwort nicht kenne.
OpenAI veröffentlichte nicht viele Informationen über die Daten, die zum Trainieren seines neuen Modells verwendet wurden, und sagte lediglich, dass das Modell auf einer Kombination aus öffentlich verfügbaren Daten und proprietären Daten trainiert wurde, die durch Partnerschaften gewonnen wurden.