Als OpenAI im Mai seine Spring Launch-Veranstaltung abhielt, stach vor allem eine Demo des neuen Sprachmodus von ChatGPT hervor, der neue Video- und Audiofunktionen von GPT-4o bietet. Der mit Spannung erwartete neue Sprachmodus ist (sozusagen) endlich da.
Außerdem: Beste KI-Chatbots des Jahres 2024: ChatGPT, Copilot und würdige Alternativen
Am Dienstag gab OpenAI über einen X-Beitrag bekannt, dass der Sprachmodus in der Alpha-Version für eine kleine Gruppe von ChatGPT Plus-Benutzern eingeführt wird und ihnen einen intelligenteren Sprachassistenten bietet, der die Emotionen der Benutzer unterbrechen und darauf reagieren kann.
Benutzer, die an der Alpha-Version teilnehmen, erhalten eine E-Mail mit Anweisungen und Nachrichten in der mobilen App, wie im Video oben gezeigt. Machen Sie sich keine Sorgen, wenn Sie keine Benachrichtigung erhalten haben. OpenAI sagte, dass es weiterhin schrittweise Benutzer hinzufügen werde, wobei geplant sei, dass alle ChatGPT Plus-Benutzer bis zum Herbst darauf zugreifen können.
In der unten gezeigten Originaldemo bei der Auftaktveranstaltung demonstrierte das Unternehmen die multimodalen Fähigkeiten von Voice Mode, einschließlich der Unterstützung bei Inhalten auf dem Bildschirm des Benutzers und der Verwendung der Telefonkamera des Benutzers als Kontext für Antworten.
Die Alpha-Version des Sprachmodus verfügt jedoch nicht über diese Funktionen. OpenAI sagte, dass „Video- und Bildschirmfreigabefunktionen zu einem späteren Zeitpunkt eingeführt werden“. Das Unternehmen sagte außerdem, dass es seit der ersten Demonstration der Technologie die Qualität und Sicherheit von Sprachgesprächen verbessert habe.
Laut einem X-Thread testete OpenAI Sprachfunktionen mit mehr als 100 externen Red Teamern in 45 Sprachen. Das Unternehmen trainierte das Modell außerdem so, dass es mit nur vier vordefinierten Stimmen spricht, blockierte Ausgaben, die von den zugewiesenen Stimmen abwichen, und implementierte Beschränkungen für Blockanfragen.
Das Unternehmen sagte außerdem, dass das Feedback der Benutzer berücksichtigt werde, um das Modell weiter zu verbessern, und werde im August einen detaillierten Bericht über die Leistung von GPT-4os, einschließlich Einschränkungen und Sicherheitsbewertungen, veröffentlichen.
Außerdem: Die KI-Tools der nächsten Generation von Google helfen dabei, Ihre Werbekampagnen präziser auszurichten
Sie können für 20 $ pro Monat ChatGPT Plus-Kunde werden. Zu den weiteren Vorteilen der Mitgliedschaft gehören erweiterte Datenanalysefunktionen, Bildgenerierung, vorrangiger Zugriff auf GPT-4o und mehr.
Eine Woche nach der Einführung dieser Funktion durch OpenAI startete Google eine ähnliche Funktion namens Gemini Live. Gemini Live steht Benutzern jedoch noch nicht zur Verfügung. Das könnte sich bei der in den kommenden Wochen stattfindenden Made by Google-Veranstaltung bald ändern.