OpenAI versnelt zijn inspanningen om de opkomende AI-markt te domineren, aangezien het bedrijf deze week het nieuwste en krachtigste model onthulde dat het tot nu toe heeft ontwikkeld, genaamd GPT-4o. Dit nieuwe grote taalmodel (LLM) wordt beschouwd als multimodaal omdat het zowel content van en naar tekst, afbeeldingen en audio kan begrijpen als genereren met ongekende snelheid.
De lancering is de grootste technische sprong voorwaarts voor OpenAI sinds de release van GPT-4 vorig jaar en ChatGPT eind 2022. GPT-4o belooft de populaire AI-chatbot van OpenAI een boost te geven en geheel nieuwe mogelijkheden te creëren voor natuurlijkere en multimodale interacties tussen mensen en AI-systemen.
“GPT-4o redeneert over spraak, tekst en visie”, zei OpenAI’s Chief Technology Officer, Mira Murati, bij de presentatie van het nieuwe product van het bedrijf. “Dit is ongelooflijk belangrijk, omdat we kijken naar de toekomst van interactie tussen onszelf en machines.”
OpenAI toont krachtige functies van GPT-4o tijdens een live demo
Tijdens een live demo in San Francisco lieten Murati en andere OpenAI- onderzoekers de snelheid en vloeiendheid van GPT-4o zien in meerdere soorten communicatie. Het model kan naar gesproken aanwijzingen luisteren en met een natuurlijke stem reageren in gemiddeld slechts 232 milliseconden. Dit is de dichtstbijzijnde snelheid die een AI-model heeft bereikt in vergelijking met de gemiddelde responstijden van 200 ms van mensen.
Het kan afbeeldingen en video’s in realtime analyseren, menu’s vertalen die in een vreemde taal zijn geschreven, commentaar leveren op live sportacties en technische schema’s doornemen. GPT-4o kan ook outputs genereren in verschillende formaten, waaronder tekst, afbeeldingen en meer.
Wat nog aantrekkelijker is, is dat GPT-4o al deze mogelijkheden verenigt in één neuraal netwerk in plaats van te vertrouwen op aparte gespecialiseerde modellen voor elke modaliteit. Deze grote verandering in de architectuur van het model elimineert vertraging en maakt naadloze multimodale uitwisselingen tussen mensen en de AI-assistent mogelijk.
“Als je drie verschillende modellen hebt die samenwerken, introduceer je veel latentie in de ervaring en dat verbreekt de onderdompeling van de ervaring”, benadrukte Murati.
Ze voegde toe: “Maar als je één model hebt dat native redeneert over audio, tekst en beeld, dan verwijder je alle latentie en kun je met ChatGPT meer communiceren zoals we nu doen.”
Het bedrijf is al begonnen met het uitrollen van GPT-4o’s tekst- en beeldbegripsmogelijkheden voor betalende abonnees van ChatGPT Plus en zakelijke klanten. Ondertussen zullen spraakinteracties die worden aangestuurd door het nieuwe model in de komende weken beginnen met alfatesten met Plus-gebruikers.
“De nieuwe spraak- (en video-)modus is de beste computerinterface die ik ooit heb gebruikt”, aldus Sam Altman, de Chief Executive Officer van OpenAI.
Hij voegde toe: “Het voelt als AI uit de films; en het verbaast me nog steeds dat het echt is. Het bereiken van menselijke responstijden en expressiviteit blijkt een grote verandering te zijn.”
GPT-4o versus eerdere modellen: belangrijke upgrades
Hoewel OpenAI multimodale inputs zoals afbeeldingen toeliet met eerdere versies van ChatGPT, was de originele GPT-4 die in maart 2023 werd uitgebracht nog steeds voornamelijk een tekstmodel. Gebruikers konden visuele informatie delen, maar de reacties die ze van het model kregen, waren nog steeds tekstgebaseerde outputs.
GPT-4 vertegenwoordigde een grote sprong voorwaarts ten opzichte van GPT-3.5, omdat het verbeterde feitelijke kennis, redeneervermogen en meertalige ondersteuning in meer dan 20 talen bood. Het scoorde in het 90e percentiel op het berucht moeilijke Amerikaanse balie-examen en toonde programmeervaardigheden die gemakkelijk konden wedijveren met die van de meeste menselijke programmeurs.
Nu bouwt GPT-4o voort op die tekstuele talenten en maakt tegelijkertijd enorme stappen in audio- en visueel begrip die eerdere modellen ontbeerden. Hier is een samenvatting van de meest relevante verschillen en verbeteringen die met deze nieuwe modelrelease komen.
Realtime spraakinteracties met menselijke toonaanpassingen
Misschien wel de meest opvallende nieuwe mogelijkheid van GPT-4o is het vermogen om realtime spraakgesprekken te voeren die bijna niet te onderscheiden zijn van praten met een andere persoon. In de demo reageerde de AI op verbale prompts met vloeiende gesproken antwoorden in een menselijke stem. Het model was ook in staat om de toon te veranderen van dwaas naar professioneel, afhankelijk van de context van het gesprek.
GPT-4o is uitgerust om de emoties te analyseren die worden overgebracht door de stembuigingen van een spreker en zijn eigen manier van spreken dienovereenkomstig aan te passen. Op een gegeven moment sprak het zelfs een liedje uit op verzoek toen het werd gevraagd om een verhaaltje voor het slapengaan te vertellen. Deze realtime responsiviteit vertegenwoordigt een aanzienlijke verbetering vergeleken met Voice Mode, de eerste audio-gebaseerde functie die door OpenAI werd gelanceerd voor ChatGPT.
De alfaversie van Voice Mode transcribeerde eenvoudigweg spraakinvoer naar tekst, stuurde deze door het GPT-taalmodel en converteerde vervolgens de tekstuitvoer naar spraak. Dit resulteerde in een hogere latentie vergeleken met de volledig gestroomlijnde pijplijn van GPT-4o.
Meertalige ondersteuning
Terwijl GPT-4 een grote sprong voorwaarts betekende voor OpenAI in het verwerken van invoer in meer dan 20 talen, ondersteunt GPT-4o nu in totaal ongeveer 50 talen in tekst en spraak. Dit breidt het bereik van potentiële toepassingen voor het AI-model uit, inclusief realtime vertaaldiensten.
Lees ook: De geschiedenis van OpenAI: Sam Altman pioniert AI zonder Musk
Tijdens de demo slaagde Murati erin om een gesprek te voeren met het AI-model, ondanks het wisselen tussen Engelse en Italiaanse prompts. Ze kreeg vloeiend vertaalde antwoorden in de tegenovergestelde taal, aangestuurd door de verbeterde taalvaardigheden van het model.
Multimodale inputs en outputs
Een van de meest veelzijdige aspecten van GPT-4o is de mogelijkheid om combinaties van tekst, afbeeldingen en audio in één keer als invoer te interpreteren en vervolgens de gewenste uitvoer te genereren in het formaat dat de gebruiker verkiest.
De AI kan bijvoorbeeld een foto van een geschreven document accepteren en vervolgens een gesproken samenvatting genereren die de belangrijkste details benadrukt. Ondertussen kan het een video bekijken van iemand die een codeerprobleem doorwerkt en schriftelijk verklarende opmerkingen geven over de programmeerlogica, fouten en voorgestelde oplossingen.
Deze multimodale flexibiliteit opent grote mogelijkheden voor talloze sectoren en toepassingen buiten ChatGPT zelf, bijvoorbeeld in het onderwijs, creatieve mediaproductie, datavisualisatie en meer.
Lage latentie en kosten
Ondanks de aanzienlijk complexere multimodale architectuur, beweert OpenAI dat GPT-4o daadwerkelijk sneller en goedkoper zal zijn om te gebruiken in vergelijking met GPT-4. Het nieuwe model levert twee keer zoveel prestaties tegen de helft van de infrastructuurkosten van zijn voorganger.
Deze verbetering in de efficiëntie van het model komt van een uniform multimodaal neuraal netwerk dat voorkomt dat de pipelines die betrokken zijn bij de verwerking van verschillende dataformaten, worden gescheiden. OpenAI rolt GPT-4o al uit naar zijn API, zodat ontwikkelaars en ondernemingen deze low-latency, multimodale AI-oplossing kunnen aanboren tegen lagere operationele kosten.
Apple en Google onthullen deze week mogelijk hun eigen ontwikkelingen op het gebied van AI
Terwijl OpenAI de lat weer hoger heeft gelegd onder AI-labs met de release van GPT-4o, woedt de wapenwedloop om de krachtigste modellen te ontwikkelen nog steeds. Deze week zal Google naar verwachting ook updates leveren voor zijn eigen multimodale AI, genaamd Gemini, tijdens de jaarlijkse Google I/O-ontwikkelaarsconferentie.
Ondertussen is Apple waarschijnlijk bijna klaar om zijn eigen nieuwe doorbraken te delen tijdens zijn Worldwide Developers Conference die op 5 juni plaatsvindt. Bovendien hebben kleinere spelers zoals Anthropic de grenzen van wat mogelijk is met generatieve AI steeds verder verlegd.
Onlangs heeft Anthropic, de ontwikkelaar van het populaire constitutionele AI-model Claude, aangekondigd dat hun oplossing nu beschikbaar zal zijn voor gebruikers in de Europese Unie en voor iOS-gebruikers via een nieuwe app die nu verkrijgbaar is in de populaire mobiele marktplaats van de Apple App Store.
Voor OpenAI en zijn grootste financier Microsoft (MSFT) is GPT-4o echter een andere grote stap die hun dominantie in dit zeer competitieve domein bevestigt. In dit tempo zijn we misschien nog maar een paar maanden verwijderd van de eerste kunstmatige algemene intelligentie (AGI) of iets dat er op lijkt.
Een extra stap die moet worden gezet om deze belangrijke mijlpaal te bereiken, zou de integratie van videoverwerkingsmogelijkheden omvatten. De release van Sora in februari van dit jaar markeerde een belangrijke stap voorwaarts in deze richting.
“We weten dat deze modellen steeds complexer worden, maar we willen dat de interactie-ervaring daadwerkelijk natuurlijker en gemakkelijker wordt, en dat u zich helemaal niet meer op de gebruikersinterface hoeft te richten, maar alleen op de samenwerking met ChatGPT”, benadrukte Murati.
“De afgelopen jaren hebben we ons vooral gericht op het verbeteren van de intelligentie van deze modellen… Maar dit is de eerste keer dat we echt een grote stap voorwaarts zetten als het gaat om gebruiksgemak”, voegde ze toe.
Wat opvallend duidelijk is, is dat de technologie die OpenAI deze week presenteerde, ons een aantal stappen dichter bij de verwezenlijking van de AGI-visie brengt.