
Tech • IA • Crypto
OpenAI a présenté des modèles audio en temps réel capables de traduction multilingue en direct et d’exécution de tâches pilotées par la voix, avec raisonnement et intégration aux systèmes.
OpenAI a dévoilé de nouvelles capacités audio en temps réel dans son API, mettant en avant deux systèmes: GPT Realtime Translate et GPT Realtime 2. Ces modèles sont conçus pour traiter la parole instantanément, permettant à la fois la traduction en direct et une assistance vocale interactive. Cette sortie marque une volonté de faire de la voix une interface principale des systèmes numériques.
Le modèle GPT Realtime Translate peut traduire la parole en temps réel dans environ 70 langues. Il commence à traduire en cours de phrase en identifiant des éléments linguistiques clés comme les verbes, produisant un rendu proche d’une conversation naturelle. Le système reste fluide même lorsque les locuteurs changent brusquement de langue ou utilisent des termes techniques.
Contrairement aux outils classiques qui attendent des pauses, le modèle produit une sortie continue, créant l’effet d’un dialogue en direct. Il préserve la structure des phrases et le ton, facilitant la communication dans des contextes multilingues comme les présentations internationales, le support client ou l’éducation. Il peut aussi changer de langue dynamiquement sans interruption.
Le modèle GPT Realtime 2 introduit des capacités de raisonnement dans les assistants vocaux, leur permettant d’interpréter les demandes, d’accéder aux données et d’exécuter des tâches. Lors des démonstrations, il a récupéré des détails de calendrier, identifié des participants à des réunions et répondu de manière conversationnelle, tout en conservant le contexte et le timing.
Le modèle peut se connecter à des outils externes tels que les calendriers, systèmes CRM, tableaux de bord et appareils connectés. Dans un exemple, il a mis à jour une entrée CRM avec des résumés de réunion et des prochaines étapes après avoir récupéré le contexte pertinent. Cette intégration permet aux agents vocaux d’agir directement dans les flux de travail existants.
GPT Realtime 2 prend en charge les appels d’outils en parallèle, permettant plusieurs actions en arrière-plan simultanément. Pendant ces प्रक्रces, le système informe l’utilisateur de sa progression via de courtes mises à jour ou « préambules », assurant de la transparence lorsque les tâches prennent plusieurs secondes.
Une fonctionnalité clé est l’écoute persistante: l’assistant reste conscient du contexte de la conversation sans interrompre tant qu’il n’est pas sollicité. Les utilisateurs peuvent ainsi parler naturellement, faire des pauses et reprendre sans réinitialiser le système, renforçant l’impression d’un dialogue continu.
Les modèles conservent le contexte conversationnel dans le temps, leur permettant de gérer des interactions en plusieurs étapes et des instructions évolutives. Cela prend en charge des cas d’usage plus complexes comme la préparation de comptes rendus, le suivi de tâches ou la coordination entre plusieurs applications.
Ces avancées positionnent la voix comme une interface principale plus viable pour l’interaction numérique. En combinant traduction, raisonnement et exécution d’actions en temps réel, les modèles réduisent les frictions entre communication humaine et exécution logicielle.
Ces nouveaux modèles audio en temps réel illustrent un basculement vers une informatique fluide pilotée par la voix, alliant traduction instantanée et exécution intelligente de tâches au sein de systèmes connectés.