OpenAI onthult razendsnel GPT-4o-model met multimodale AI-mogelijkheden

September 6, 2024

OpenAI versnelt zijn inspanningen om de opkomende AI-markt te domineren, aangezien het bedrijf deze week het nieuwste en krachtigste model onthulde dat het tot nu toe heeft ontwikkeld, genaamd GPT-4o. Dit nieuwe grote taalmodel (LLM) wordt beschouwd als multimodaal omdat het zowel content van en naar tekst, afbeeldingen en audio kan begrijpen als genereren met ongekende snelheid.

De lancering is de grootste technische sprong voorwaarts voor OpenAI sinds de release van GPT-4 vorig jaar en ChatGPT eind 2022. GPT-4o belooft de populaire AI-chatbot van OpenAI een boost te geven en geheel nieuwe mogelijkheden te creëren voor natuurlijkere en multimodale interacties tussen mensen en AI-systemen.

“GPT-4o redeneert over spraak, tekst en visie”, zei OpenAI’s Chief Technology Officer, Mira Murati, bij de presentatie van het nieuwe product van het bedrijf. “Dit is ongelooflijk belangrijk, omdat we kijken naar de toekomst van interactie tussen onszelf en machines.”

OpenAI toont krachtige functies van GPT-4o tijdens een live demo

Tijdens een live demo in San Francisco lieten Murati en andere OpenAI- onderzoekers de snelheid en vloeiendheid van GPT-4o zien in meerdere soorten communicatie. Het model kan naar gesproken aanwijzingen luisteren en met een natuurlijke stem reageren in gemiddeld slechts 232 milliseconden. Dit is de dichtstbijzijnde snelheid die een AI-model heeft bereikt in vergelijking met de gemiddelde responstijden van 200 ms van mensen.

Het kan afbeeldingen en video’s in realtime analyseren, menu’s vertalen die in een vreemde taal zijn geschreven, commentaar leveren op live sportacties en technische schema’s doornemen. GPT-4o kan ook outputs genereren in verschillende formaten, waaronder tekst, afbeeldingen en meer.

Wat nog aantrekkelijker is, is dat GPT-4o al deze mogelijkheden verenigt in één neuraal netwerk in plaats van te vertrouwen op aparte gespecialiseerde modellen voor elke modaliteit. Deze grote verandering in de architectuur van het model elimineert vertraging en maakt naadloze multimodale uitwisselingen tussen mensen en de AI-assistent mogelijk.

“Als je drie verschillende modellen hebt die samenwerken, introduceer je veel latentie in de ervaring en dat verbreekt de onderdompeling van de ervaring”, benadrukte Murati.

Ze voegde toe: “Maar als je één model hebt dat native redeneert over audio, tekst en beeld, dan verwijder je alle latentie en kun je met ChatGPT meer communiceren zoals we nu doen.”

Het bedrijf is al begonnen met het uitrollen van GPT-4o’s tekst- en beeldbegripsmogelijkheden voor betalende abonnees van ChatGPT Plus en zakelijke klanten. Ondertussen zullen spraakinteracties die worden aangestuurd door het nieuwe model in de komende weken beginnen met alfatesten met Plus-gebruikers.

“De nieuwe spraak- (en video-)modus is de beste computerinterface die ik ooit heb gebruikt”, aldus Sam Altman, de Chief Executive Officer van OpenAI.

Hij voegde toe: “Het voelt als AI uit de films; en het verbaast me nog steeds dat het echt is. Het bereiken van menselijke responstijden en expressiviteit blijkt een grote verandering te zijn.”

GPT-4o versus eerdere modellen: belangrijke upgrades

GPT-4o overtreft de mogelijkheden van alle bestaande modellen

Hoewel OpenAI multimodale inputs zoals afbeeldingen toeliet met eerdere versies van ChatGPT, was de originele GPT-4 die in maart 2023 werd uitgebracht nog steeds voornamelijk een tekstmodel. Gebruikers konden visuele informatie delen, maar de reacties die ze van het model kregen, waren nog steeds tekstgebaseerde outputs.

GPT-4 vertegenwoordigde een grote sprong voorwaarts ten opzichte van GPT-3.5, omdat het verbeterde feitelijke kennis, redeneervermogen en meertalige ondersteuning in meer dan 20 talen bood. Het scoorde in het 90e percentiel op het berucht moeilijke Amerikaanse balie-examen en toonde programmeervaardigheden die gemakkelijk konden wedijveren met die van de meeste menselijke programmeurs.

Nu bouwt GPT-4o voort op die tekstuele talenten en maakt tegelijkertijd enorme stappen in audio- en visueel begrip die eerdere modellen ontbeerden. Hier is een samenvatting van de meest relevante verschillen en verbeteringen die met deze nieuwe modelrelease komen.

Realtime spraakinteracties met menselijke toonaanpassingen

Misschien wel de meest opvallende nieuwe mogelijkheid van GPT-4o is het vermogen om realtime spraakgesprekken te voeren die bijna niet te onderscheiden zijn van praten met een andere persoon. In de demo reageerde de AI op verbale prompts met vloeiende gesproken antwoorden in een menselijke stem. Het model was ook in staat om de toon te veranderen van dwaas naar professioneel, afhankelijk van de context van het gesprek.

GPT-4o is uitgerust om de emoties te analyseren die worden overgebracht door de stembuigingen van een spreker en zijn eigen manier van spreken dienovereenkomstig aan te passen. Op een gegeven moment sprak het zelfs een liedje uit op verzoek toen het werd gevraagd om een verhaaltje voor het slapengaan te vertellen. Deze realtime responsiviteit vertegenwoordigt een aanzienlijke verbetering vergeleken met Voice Mode, de eerste audio-gebaseerde functie die door OpenAI werd gelanceerd voor ChatGPT.

De alfaversie van Voice Mode transcribeerde eenvoudigweg spraakinvoer naar tekst, stuurde deze door het GPT-taalmodel en converteerde vervolgens de tekstuitvoer naar spraak. Dit resulteerde in een hogere latentie vergeleken met de volledig gestroomlijnde pijplijn van GPT-4o.

Meertalige ondersteuning

Terwijl GPT-4 een grote sprong voorwaarts betekende voor OpenAI in het verwerken van invoer in meer dan 20 talen, ondersteunt GPT-4o nu in totaal ongeveer 50 talen in tekst en spraak. Dit breidt het bereik van potentiële toepassingen voor het AI-model uit, inclusief realtime vertaaldiensten.

Lees ook: De geschiedenis van OpenAI: Sam Altman pioniert AI zonder Musk

Tijdens de demo slaagde Murati erin om een gesprek te voeren met het AI-model, ondanks het wisselen tussen Engelse en Italiaanse prompts. Ze kreeg vloeiend vertaalde antwoorden in de tegenovergestelde taal, aangestuurd door de verbeterde taalvaardigheden van het model.

Multimodale inputs en outputs

OpenAI versnelt zijn inspanningen om de opkomende AI-markt te domineren, aangezien het bedrijf deze week het nieuwste en krachtigste model onthulde dat het tot nu toe heeft ontwikkeld, genaamd GPT-4o. Dit nieuwe grote taalmodel (LLM) wordt beschouwd als multimodaal omdat het zowel inhoud van en naar tekst, afbeeldingen en audio kan begrijpen als genereren met een ongekende snelheid. De lancering vertegenwoordigt OpenAI's grootste technische sprong voorwaarts sinds de release van GPT-4 vorig jaar en ChatGPT eind 2022. GPT-4o belooft OpenAI's populaire AI-chatbot een boost te geven en geheel nieuwe grenzen te openen voor meer natuurlijke en multimodale interacties tussen mensen en AI-systemen. "GPT-4o redeneert over spraak, tekst en visie", zei OpenAI's Chief Technology Officer, Mira Murati, bij de presentatie van het nieuwe product van het bedrijf. "Dit is ongelooflijk belangrijk, omdat we kijken naar de toekomst van interactie tussen onszelf en machines." OpenAI toont krachtige functies van GPT-4o tijdens een live demo Tijdens een live demo in San Francisco toonden Murati en andere OpenAI-onderzoekers de snelheid en vloeiendheid van GPT-4o in meerdere soorten communicatie. Het model kan naar gesproken aanwijzingen luisteren en met een natuurlijke stem reageren in gemiddeld slechts 232 milliseconden. Deze snelheid is het dichtst dat een AI-model ooit in de buurt is gekomen van de gemiddelde responstijden van 200 ms van mensen. Het kan afbeeldingen en video's in realtime analyseren, menu's vertalen die in een vreemde taal zijn geschreven, commentaar leveren op live sportacties en technische schema's doornemen. GPT-4o kan ook uitvoer genereren in verschillende formaten, waaronder tekst, afbeeldingen en meer. Wat nog aantrekkelijker is, is dat GPT-4o al deze mogelijkheden verenigt in één neuraal netwerk in plaats van te vertrouwen op afzonderlijke gespecialiseerde modellen voor elke modaliteit. Deze grote verandering in de architectuur van het model elimineert vertraging en maakt naadloze multimodale uitwisselingen tussen mensen en de AI-assistent mogelijk. "Als je drie verschillende modellen hebt die samenwerken, introduceer je veel latentie in de ervaring en dat verbreekt de onderdompeling van de ervaring", benadrukte Murati. Ze voegde toe: "Maar als je één model hebt dat native redeneert over audio, tekst en beeld, dan verwijder je alle latentie en kun je meer met ChatGPT interacteren zoals we nu doen." Het bedrijf is al begonnen met het uitrollen van de tekst- en beeldbegripsmogelijkheden van GPT-4o voor betalende abonnees van ChatGPT Plus en zakelijke klanten. Ondertussen zullen spraakinteracties die worden aangestuurd door het nieuwe model in de komende weken alfatesten met Plus-gebruikers beginnen. "De nieuwe spraak- (en video-) modus is de beste computerinterface die ik ooit heb gebruikt", aldus Sam Altman, de Chief Executive Officer van OpenAI. Hij voegde toe: "Het voelt als AI uit de films; en het verbaast me nog steeds een beetje dat het echt is. Het bereiken van menselijke responstijden en expressiviteit blijkt een grote verandering te zijn." GPT-4o versus eerdere modellen:Belangrijke upgrades Hoewel OpenAI multimodale invoer zoals afbeeldingen toeliet met eerdere versies van ChatGPT, was de originele GPT-4 die in maart 2023 werd uitgebracht nog steeds voornamelijk een tekstmodel. Gebruikers konden visuele informatie delen, maar de reacties die ze van het model kregen, waren nog steeds tekstgebaseerde uitvoer. GPT-4 vertegenwoordigde een grote sprong voorwaarts ten opzichte van GPT-3.5, omdat het verbeterde feitelijke kennis, redeneervermogen en meertalige ondersteuning in meer dan 20 talen bood. Het scoorde in het 90e percentiel op het berucht moeilijke Amerikaanse balie-examen en toonde programmeervaardigheden die gemakkelijk konden wedijveren met de meeste menselijke programmeurs. Nu bouwt GPT-4o voort op die tekstuele talenten en maakt het ook enorme stappen in audio- en visueel begrip die eerdere modellen ontbeerden. Hier is een samenvatting van de meest relevante verschillen en verbeteringen die met deze nieuwe modelrelease komen. Realtime spraakinteracties met menselijke toonaanpassingen Misschien is de meest opvallende nieuwe mogelijkheid van GPT-4o wel de mogelijkheid om realtime spraakgesprekken te voeren die bijna niet te onderscheiden zijn van praten met een andere persoon. In de demo reageerde de AI op verbale prompts met vloeiende gesproken antwoorden in een menselijke stem. Het model was ook in staat om de toon van dwaas naar professioneel te veranderen, afhankelijk van de context van het gesprek. GPT-4o is uitgerust om de emoties te analyseren die worden overgebracht door de stembuigingen van een spreker en zijn eigen manier van spreken dienovereenkomstig aan te passen. Op een gegeven moment sprak het zelfs een liedje uit op verzoek toen het werd gevraagd om een verhaaltje voor het slapengaan te vertellen. Deze realtime responsiviteit vertegenwoordigt een aanzienlijke verbetering vergeleken met Voice Mode, de eerste audiogebaseerde functie die door OpenAI werd gelanceerd voor ChatGPT. De alfaversie van Voice Mode transcribeerde eenvoudig gesproken invoer naar tekst, gaf deze door aan het GPT-taalmodel en converteerde de tekstuitvoer vervolgens naar spraak. Dit resulteerde in een hogere latentie vergeleken met de volledig gestroomlijnde pijplijn van GPT-4o. Meertalige ondersteuning Hoewel GPT-4 een grote stap voorwaarts betekende voor OpenAI in het verwerken van invoer in meer dan 20 talen, ondersteunt GPT-4o nu in totaal ongeveer 50 talen in tekst en spraak. Dit breidt het bereik van potentiële toepassingen voor het AI-model uit, inclusief realtime vertaaldiensten. Lees ook: De geschiedenis van OpenAI: Sam Altman pioniert AI zonder Musk Tijdens de demo slaagde Murati erin om een gesprek te voeren met het AI-model, ondanks het wisselen tussen Engelse en Italiaanse prompts. Ze kreeg vloeiend vertaalde antwoorden in de tegenovergestelde taal, aangestuurd door de verbeterde taalvaardigheden van het model. Multimodale invoer en uitvoer Een van de meest veelzijdige aspecten van GPT-4o is het vermogen om combinaties van tekst, afbeeldingen en audio allemaal tegelijk als invoer te begrijpen en vervolgens de gewenste uitvoer te genereren in het formaat dat de gebruiker verkiest. De AI kan bijvoorbeeld een foto van een geschreven document accepteren en vervolgens een gesproken samenvatting genereren die de belangrijkste details benadrukt. Ondertussen,het zou een video kunnen bekijken van iemand die een coderingsprobleem doorwerkt en schriftelijk verklarende opmerkingen kunnen geven over de programmeerlogica, fouten en voorgestelde oplossingen. Deze multimodale flexibiliteit opent grote mogelijkheden in talloze industrieën en toepassingen buiten ChatGPT zelf, op gebieden zoals onderwijs, creatieve mediaproductie, datavisualisatie en meer. Lage latentie en kosten Ondanks de aanzienlijk complexere multimodale architectuur, beweert OpenAI dat GPT-4o in feite sneller en goedkoper zal zijn om te gebruiken in vergelijking met GPT-4. Het nieuwe model levert twee keer zoveel prestaties tegen de helft van de infrastructuurkosten van zijn voorganger. Deze verbetering in de efficiëntie van het model komt van een uniform multimodaal neuraal netwerk dat voorkomt dat de pijplijnen die betrokken zijn bij het verwerken van verschillende gegevensformaten, worden gescheiden. OpenAI rolt GPT-4o al uit naar zijn API om ontwikkelaars en ondernemingen in staat te stellen om deze multimodale AI-oplossing met lage latentie aan te boren tegen lagere operationele kosten. Apple en Google onthullen mogelijk hun eigen ontwikkelingen op het gebied van AI deze week Hoewel OpenAI de lat weer hoger heeft gelegd onder AI-labs met de release van GPT-4o, woedt de wapenwedloop om de krachtigste modellen te ontwikkelen nog steeds. Deze week zal Google naar verwachting ook updates leveren voor zijn eigen multimodale AI genaamd Gemini tijdens de jaarlijkse Google I/O-ontwikkelaarsconferentie. Ondertussen zou Apple ook bereid kunnen zijn om interessante nieuwe doorbraken te delen tijdens zijn Worldwide Developers Conference die op 5 juni plaatsvindt. Bovendien zijn kleinere spelers zoals Anthropic de grenzen van wat mogelijk is met generatieve AI blijven verleggen. Onlangs hebben de ontwikkelaars van het populaire constitutionele AI-model Claude aangekondigd dat hun oplossing nu beschikbaar zal zijn voor gebruikers in de Europese Unie en voor iOS-gebruikers via een nieuwe app die nu beschikbaar is in de populaire mobiele marktplaats van de Apple App Store. Voor OpenAI en zijn grootste financier Microsoft (MSFT) vertegenwoordigt GPT-4o echter een andere grote stap die hun dominantie in dit zeer competitieve domein bevestigt. In dit tempo zijn we misschien nog maar een paar maanden verwijderd van de eerste kunstmatige algemene intelligentie (AGI). Een extra stap die moet worden gezet om deze belangrijke mijlpaal te bereiken, is de integratie van videoverwerkingsmogelijkheden. De release van Sora in februari van dit jaar markeerde een belangrijke stap voorwaarts in deze richting. "We weten dat deze modellen steeds complexer worden, maar we willen dat de interactie-ervaring daadwerkelijk natuurlijker en gemakkelijker wordt, en dat u zich helemaal niet op de gebruikersinterface richt, maar alleen op de samenwerking met ChatGPT", benadrukte Murati. "De afgelopen paar jaar hebben we ons vooral gericht op het verbeteren van de intelligentie van deze modellen ... Maar dit is de eerste keer dat we echt een grote stap voorwaarts zetten als het gaat om gebruiksgemak", voegde ze toe.Wat opvallend duidelijk is, is dat de technologie die OpenAI deze week presenteerde, ons een aantal stappen dichter bij de verwezenlijking van de AGI-visie brengt.

Een van de meest veelzijdige aspecten van GPT-4o is de mogelijkheid om combinaties van tekst, afbeeldingen en audio in één keer als invoer te interpreteren en vervolgens de gewenste uitvoer te genereren in het formaat dat de gebruiker verkiest.

De AI kan bijvoorbeeld een foto van een geschreven document accepteren en vervolgens een gesproken samenvatting genereren die de belangrijkste details benadrukt. Ondertussen kan het een video bekijken van iemand die een codeerprobleem doorwerkt en schriftelijk verklarende opmerkingen geven over de programmeerlogica, fouten en voorgestelde oplossingen.

Deze multimodale flexibiliteit opent grote mogelijkheden voor talloze sectoren en toepassingen buiten ChatGPT zelf, bijvoorbeeld in het onderwijs, creatieve mediaproductie, datavisualisatie en meer.

Lage latentie en kosten

Ondanks de aanzienlijk complexere multimodale architectuur, beweert OpenAI dat GPT-4o daadwerkelijk sneller en goedkoper zal zijn om te gebruiken in vergelijking met GPT-4. Het nieuwe model levert twee keer zoveel prestaties tegen de helft van de infrastructuurkosten van zijn voorganger.

Deze verbetering in de efficiëntie van het model komt van een uniform multimodaal neuraal netwerk dat voorkomt dat de pipelines die betrokken zijn bij de verwerking van verschillende dataformaten, worden gescheiden. OpenAI rolt GPT-4o al uit naar zijn API, zodat ontwikkelaars en ondernemingen deze low-latency, multimodale AI-oplossing kunnen aanboren tegen lagere operationele kosten.

Apple en Google onthullen deze week mogelijk hun eigen ontwikkelingen op het gebied van AI

Terwijl OpenAI de lat weer hoger heeft gelegd onder AI-labs met de release van GPT-4o, woedt de wapenwedloop om de krachtigste modellen te ontwikkelen nog steeds. Deze week zal Google naar verwachting ook updates leveren voor zijn eigen multimodale AI, genaamd Gemini, tijdens de jaarlijkse Google I/O-ontwikkelaarsconferentie.

Ondertussen is Apple waarschijnlijk bijna klaar om zijn eigen nieuwe doorbraken te delen tijdens zijn Worldwide Developers Conference die op 5 juni plaatsvindt. Bovendien hebben kleinere spelers zoals Anthropic de grenzen van wat mogelijk is met generatieve AI steeds verder verlegd.

Onlangs heeft Anthropic, de ontwikkelaar van het populaire constitutionele AI-model Claude, aangekondigd dat hun oplossing nu beschikbaar zal zijn voor gebruikers in de Europese Unie en voor iOS-gebruikers via een nieuwe app die nu verkrijgbaar is in de populaire mobiele marktplaats van de Apple App Store.

Voor OpenAI en zijn grootste financier Microsoft (MSFT) is GPT-4o echter een andere grote stap die hun dominantie in dit zeer competitieve domein bevestigt. In dit tempo zijn we misschien nog maar een paar maanden verwijderd van de eerste kunstmatige algemene intelligentie (AGI) of iets dat er op lijkt.

Een extra stap die moet worden gezet om deze belangrijke mijlpaal te bereiken, zou de integratie van videoverwerkingsmogelijkheden omvatten. De release van Sora in februari van dit jaar markeerde een belangrijke stap voorwaarts in deze richting.

“We weten dat deze modellen steeds complexer worden, maar we willen dat de interactie-ervaring daadwerkelijk natuurlijker en gemakkelijker wordt, en dat u zich helemaal niet meer op de gebruikersinterface hoeft te richten, maar alleen op de samenwerking met ChatGPT”, benadrukte Murati.

“De afgelopen jaren hebben we ons vooral gericht op het verbeteren van de intelligentie van deze modellen… Maar dit is de eerste keer dat we echt een grote stap voorwaarts zetten als het gaat om gebruiksgemak”, voegde ze toe.

Wat opvallend duidelijk is, is dat de technologie die OpenAI deze week presenteerde, ons een aantal stappen dichter bij de verwezenlijking van de AGI-visie brengt.