Home Uncategorized Mit OpenAI können Entwickler Echtzeit-Sprachanwendungen erstellen – zu einem Bruchteil der Kosten

Mit OpenAI können Entwickler Echtzeit-Sprachanwendungen erstellen – zu einem Bruchteil der Kosten

8
0
Mit OpenAI können Entwickler Echtzeit-Sprachanwendungen erstellen – zu einem Bruchteil der Kosten

Jakub Porzycki/NurPhoto über Getty Images

Der jährliche Entwicklertag von OpenAI fand am Mittwoch in San Francisco statt. mit einer Reihe von Produkt- und Funktionsankündigungen. Das Herzstück der Veranstaltung ist das Unternehmen Einführung in Echtzeit-Anwendungsprogrammierschnittstellen (API).

Funktionen für Entwickler ermöglichen das Senden und Empfangen gesprochener Spracheingaben und -ausgaben während Inferenzvorgängen oder das Treffen von Vorhersagen mit großen Produktionssprachenmodellen (LLM). Von Interaktionen wie dieser wird erwartet, dass sie flüssigere Gespräche in Echtzeit zwischen einer Person und einem Sprachmodell ermöglichen.

Auch: Altman von OpenAI sieht „Superintelligenz“ unmittelbar bevor – aber es mangelt ihm an Details

Diese Fähigkeit hat auch einen hohen Preis. OpenAI kostet derzeit sein großes Sprachmodell GPT-4o, auf dem seine Echtzeit-API basiert, 2,50 US-Dollar pro Million Eingabetext-Tokens und 10 US-Dollar pro Million Ausgabe-Tokens.

Die Kosten für die Eingabe und Ausgabe in Echtzeit sind mindestens doppelt so hoch wie die Kosten, basierend auf Text- und Audio-Tokens, da GPT-4o beide Arten der Eingabe und Ausgabe erfordert. Eingabe- und Ausgabetokens für GPT-4o kosten bei Verwendung der Echtzeit-API 5 bzw. 20 US-Dollar pro Million Token.

openai-dev-day-2024-splash-image

Voller Terminkalender am Entwicklertag.

OpenAI

Für Sound-Token betragen die Gebühren bis zu 100 US-Dollar pro Million Audio-Input-Tokens und 200 US-Dollar pro Million Audio-Output-Tokens.

Außerdem: So nutzen Sie ChatGPT zur Optimierung Ihres Lebenslaufs

OpenAI stellt fest, dass der Preis von Audio-Tokens bei Standardstatistiken für Sprachgespräche „ungefähr 0,06 US-Dollar pro Minute Audioeingabe und 0,24 US-Dollar pro Minute Audioausgabe entspricht“.

Openai-Echtzeit-API-Preise

OpenAI-Preisblatt für Echtzeit-API-Funktionsaufrufe in der GPT-4o-Modellinferenz für große Sprachen.

OpenAI

OpenAI bietet Beispiele dafür, wie Echtzeit-Sprache in der generativen KI eingesetzt werden kann, darunter automatisierte Gesundheitscoaches, die einer Person Ratschläge geben, und Sprachlehrer, die sich mit Schülern unterhalten können, um eine neue Sprache zu üben.

Während der Entwicklerkonferenz bot OpenAI eine Möglichkeit, die Gesamtkosten für Entwickler zu senken schneller CacheDas heißt, die Wiederverwendung von Tokens für Eingaben, die zuvor an das Modell gesendet wurden. Der Ansatz halbiert den Preis für GPT-4o-Eingabetext-Tokens.

Auch: Das preisgünstige GPT-4o-Minimodell von OpenAI ist jetzt auch günstiger in der Feinabstimmung

Am Mittwoch wurde außerdem die LLM-„Destillation“ eingeführt, die es Entwicklern ermöglicht, Daten von größeren Modellen zu verwenden, um kleinere Modelle zu trainieren.

Entwickler erfassen Eingaben und Ausgaben von einem der leistungsfähigeren Sprachmodelle von OpenAI, wie etwa GPT-4o, mithilfe einer Technik, die als „gespeicherte Vervollständigung“ bekannt ist. Diese gespeicherten Lösungen werden dann zu Trainingsdaten zur „Feinabstimmung“ kleinerer Modelle wie GPT-4o mini.

OpenAI bezeichnet seinen Destillationsdienst als eine Möglichkeit, einen Großteil der sich wiederholenden Arbeit zu eliminieren, die Entwickler benötigen, um kleinere Modelle aus größeren Modellen zu trainieren.

„Bisher war die Destillation ein mehrstufiger Prozess, der fehleranfällig war“ sagte der Blog des Unternehmens zu diesem Thema„Dazu müssen Entwickler mehrere Vorgänge über nicht verbundene Tools hinweg manuell orchestrieren, von der Generierung von Datensätzen über die Verfeinerung von Modellen bis hin zur Messung von Leistungsverbesserungen.“

Zusätzlich: Unternehmen können durch den Einsatz von KI Entscheidungsdominanz erreichen. Hier erfahren Sie, wie

Die Destillation ist eine Ergänzung zu den bestehenden Feinabstimmungsdiensten von OpenAI. Der Unterschied besteht darin, dass Sie größere Modell-Eingabe-Ausgabe-Paare als Feinabstimmungsdaten verwenden können. Zu den Verbesserungsdiensten fügte das Unternehmen am Mittwoch hinzu Bildverbesserung. Entwickler übermitteln Bilddatensätze sowie Text, um vorhandene Modelle wie GPT-4o spezifischer für eine Aufgabe oder einen Wissensbereich zu machen.

Ein Beispiel aus der Praxis ist der Essenslieferdienst Grab. Das Unternehmen verwendet für GPT-4o reale Straßenschildbilder, um die Lieferrouten des Unternehmens abzubilden. „Grab konnte die Genauigkeit der Spurberechnung um 20 % und die Lokalisierung von Geschwindigkeitsbegrenzungsschildern um 13 % im Vergleich zum GPT-4o-Basismodell verbessern, sodass sie Kartierungsvorgänge besser automatisieren konnten als zuvor manuelle Prozesse“, erklärte OpenAI.

Die Preisgestaltung basiert auf der Aufteilung jedes vom Entwickler eingereichten Bildes in Token, die dann 3,75 US-Dollar pro Million Eingabe-Tokens und 15 US-Dollar pro Million Ausgabe-Tokens kosten, genau wie bei Standardanpassungen. Für das Training von Bildmodellen betragen die Kosten 25 US-Dollar pro Million Token.

Source link