ENFR
8news

Tech • IA • Crypto

TodayMy briefingVideosTop articles 24hArchivesFavoritesMy topics

GPT-5 in voice: the real shock

AIRenaud DékodeMay 11, 2026 at 05:04 PM2:32
0:00 / 0:00

TL;DR

OpenAI’s GPT Real Time 2 introduces low-latency, voice-based AI with reasoning and tool use, signaling a major shift toward conversational interfaces across digital services.

KEY POINTS

Launch of GPT Real Time 2

OpenAI has released GPT Real Time 2, a voice-first model designed for real-time, bidirectional conversations. It integrates reasoning capabilities and can call external tools during speech, enabling more dynamic and interactive exchanges than previous voice systems.

API-first deployment

The model is currently available via API, targeting developers building applications. Consumer-facing chat interfaces have not yet fully integrated this version, indicating a staged rollout focused on enterprise and product integration.

Advanced conversational abilities

GPT Real Time 2 can process queries, pause to “think,” retrieve external data, and respond seamlessly within a single conversation. This enables use cases such as automated customer support agents that access CRM systems and resolve issues in real time.

Companion model: Realtime Whisper

Alongside it, Realtime Whisper offers near-instant speech-to-text transcription across more than a dozen languages. It supports live subtitling and multilingual captioning with minimal latency, significantly improving accessibility and live communication workflows.

Companion model: Realtime Translate

Another specialized model, Realtime Translate, functions as a live interpreter. It overlays translated speech in real time without tool integration, enabling fluid multilingual conversations across languages such as Japanese or German.

Multimodal input capabilities

GPT Real Time 2 can also process visual input, allowing it to describe scenes or objects. This opens accessibility use cases, particularly for visually impaired users who can receive real-time audio descriptions of their surroundings.

Cost and scalability

The system is positioned as relatively low-cost, encouraging widespread adoption across industries. Its affordability and flexibility are expected to accelerate integration into apps, services, and connected devices.

Potential industry impact

The combination of voice interaction, reasoning, and tool use could reshape customer service, translation, accessibility, and digital interfaces broadly. Voice may become a primary interface for interacting with software and online services.

CONCLUSION

GPT Real Time 2 and its companion models mark a shift toward voice-driven, intelligent interfaces that combine reasoning, real-time processing, and multimodal input, with broad implications for how people interact with technology.

Full transcript

Vous savez quelle intelligence artificielle vous allez entendre absolument partout à partir de maintenant? Mais c'est GPT Real Time 2. J'ai bien dit entendre pas voir puisque c'est le modèle vocal temps réel de Open AI qui vient de sortir sa nouvelle version capable de raisonnement et d'appel à des outils de tout intégré à la conversation bidirectionnelle totalement naturelle. Ce GPT Realt Time 2 est absolument bluffant. Vous allez le retrouver absolument partout. pour l'instant, il est en API. Donc pour les développeurs, la version application chat GPT qui vous parle, bah c'est encore une ancienne version, mais ce GPT real time 2, ben il va vous permettre de faire des dingueries, par exemple des appels vocaux, un service après-vente qui va pouvoir vous répondre en chercher vos informations dans un CRM en vous disant "Attendez, je suis en train de réfléchir à un truc pour savoir comment régler votre problème." Raisonner, appeler des outils tout en conversant avec vous. C'est vraiment un banger qu'on va retrouver absolument partout. En plus, il est vraiment pas cher et il s'accompagne de deux autres modèles spécialisés. À côté de Real Time 2, on va trouver Realtime Whisper. Bah, c'est la nouvelle génération du mode Whisper d'open AI qui vous permet de faire des transcriptions. Voilà, en direct sans aucune latence. Vous pouvez le brancher ici sur cette vidéo par exemple pour qu'il affiche des sous-titres tout seul dans toutes les langues que vous voulez. Il y a déjà une bonne grosse dizaine de langues qui sont disponibles et il est extrêmement performant. Vous allez le retrouver partout et ça va bousculer plein de métiers à travers le monde. Real Time 2 a aussi son petit frère real time translate pour jouer aux interprètes. Alors lui, il va pas jouer un rôle, il va pas se connecter à des outils, non, il est interprète. Il va parler au-dessus de vous pour traduire ce que vous êtes en train de dire. Là, c'est pareil, des tas d'applications possibles qui sont extrêmement intéressantes. Cette conversation là pourrait être totalement doublée en japonais, en allemand ou en ce que vous voulez. Et ça peut apparaître également dans plein d'applications super utiles. Et en parlant d'utilité, Reip Time 2, sachez-le, est capable de prendre de l'image en entrée. Ça c'est génial aussi, notamment pour le handicap visuel, avoir une voix qui vous décrypte tout ce qu'elle voit, bah c'est assez bluffant. Intéressez-vous au modèle real time. À mon avis, le truc le plus sous- côté de toute l'histoire de l'intelligence artificielle qui passe un cap et ça va être notre interface avec tout. Maintenant que cette voix est capable de raisonnement et d'appel à des outils intégrés, et ben ça dessine l'utilisation à la voix de tout ce qui est digital aujourd'hui. Bon, les sources, les articles, les vidéos, les formations et toute la communauté est à retrouver sur rena-dcodes.fr. Les liens sont dans la bio.

More from AI