
Tech • IA • Crypto
GPT Real Time 2 d’OpenAI introduit une IA vocale à faible latence, dotée de raisonnement et d’usage d’outils, signalant un basculement majeur vers des interfaces conversationnelles dans les services numériques.
OpenAI a lancé GPT Real Time 2, un modèle centré sur la voix conçu pour des conversations bidirectionnelles en temps réel. Il intègre des capacités de raisonnement et peut appeler des outils externes pendant l’échange, permettant des interactions plus dynamiques que les anciens systèmes vocaux.
Le modèle est actuellement disponible via API, visant les développeurs qui créent des applications. Les interfaces de chat grand public ne l’ont pas encore pleinement intégré, ce qui suggère un déploiement progressif axé sur l’entreprise et l’intégration produit.
GPT Real Time 2 peut traiter des requêtes, faire une pause pour « réfléchir », récupérer des données externes et répondre de façon fluide au sein d’une même conversation. Cela permet des cas d’usage comme des agents de support automatisés accédant aux systèmes CRM et résolvant les problèmes en temps réel.
En parallèle, Realtime Whisper propose une transcription parole-texte quasi instantanée dans plus d’une douzaine de langues. Il prend en charge le sous-titrage en direct et les légendes multilingues avec une latence minimale, améliorant nettement l’accessibilité et les flux de communication en direct.
Un autre modèle spécialisé, Realtime Translate, agit comme un interprète en direct. Il superpose la traduction vocale en temps réel sans intégration d’outils, permettant des conversations fluides entre langues comme le japonais ou l’allemand.
GPT Real Time 2 peut aussi traiter des entrées visuelles, lui permettant de décrire des scènes ou des objets. Cela ouvre des usages en accessibilité, notamment pour les personnes malvoyantes, qui peuvent recevoir des descriptions audio en temps réel de leur environnement.
Le système est présenté comme relativement peu coûteux, favorisant une adoption large dans divers secteurs. Son accessibilité et sa flexibilité devraient accélérer son intégration dans les applications, services et appareils connectés.
La combinaison d’interaction vocale, de raisonnement et d’usage d’outils pourrait transformer le service client, la traduction, l’accessibilité et, plus largement, les interfaces numériques. La voix pourrait devenir une interface principale pour interagir avec les logiciels et services en ligne.
GPT Real Time 2 et ses modèles compagnons marquent un virage vers des interfaces vocales intelligentes, combinant raisonnement, traitement en temps réel et multimodalité, avec de larges implications pour l’interaction homme-machine.