OpenAI lance enfin le mode vocal avancé de ChatGPT
Après des mois d’attente, OpenAI a officiellement lancé le mode vocal avancé de ChatGPT, offrant une nouvelle manière plus naturelle et fluide d’interagir avec l’intelligence artificielle. Initialement annoncé en mai 2024 avec le déploiement de ChatGPT 4o, ce nouveau mode devait révolutionner la communication avec l’IA en permettant des échanges en temps réel et en captant des indices non verbaux comme le rythme de parole. Cependant, son déploiement a été retardé jusqu’à la rentrée de septembre 2024.
Un assistant vocal intelligent et réactif
Le mode vocal avancé, déjà en cours de déploiement, fait de ChatGPT un véritable assistant vocal intelligent, surpassant des concurrents tels que Siri, Alexa ou Google Assistant en termes de fluidité et de dynamisme. Selon OpenAI, cette fonctionnalité utilise les capacités audio natives de GPT-4o, permettant des conversations où l’IA peut même ajuster son ton et son émotion en fonction des interactions avec l’utilisateur. Un outil sophistiqué qui réagit aux nuances de la voix humaine, comme la vitesse de parole, pour offrir une expérience conversationnelle plus immersive.
« La voix avancée utilise les capacités audio natives de GPT-4o et propose des conversations plus naturelles et en temps réel qui captent les indices non verbaux, tels que la vitesse à laquelle vous parlez, et peut répondre avec émotion », a précisé OpenAI.
Un lancement retardé mais amélioré
Initialement prévu pour juin 2024, le mode vocal a été repoussé à l’automne en raison de la nécessité d’affiner certaines fonctionnalités. OpenAI a notamment pris plus de temps pour s’assurer que le modèle puisse refuser certains contenus de manière appropriée et garantir une meilleure expérience utilisateur, tout en améliorant la réactivité des réponses. Le déploiement a finalement commencé, mais reste limité aux abonnés des offres payantes ChatGPT Plus (24,50 $ par mois) et Team, avec un accès prévu pour les clients Entreprise et Education la semaine prochaine.
Disponibilité limitée en Europe
Pour le moment, les utilisateurs européens devront faire preuve de patience. Le mode vocal avancé n’est pas encore disponible dans l’UE, au Royaume-Uni, en Suisse, en Islande, en Norvège et au Liechtenstein, bien que son déploiement soit en cours selon OpenAI. Sur l’application iOS, un avertissement informe les utilisateurs que la fonctionnalité est « en route ». Pour accéder au mode dès qu’il sera disponible, OpenAI conseille de mettre à jour l’application mobile à la version 1.2024.261 ou ultérieure, tant sur Android que sur iOS.
Les nouveautés et fonctionnalités ajoutées
Pour compenser ce retard, OpenAI a enrichi le mode vocal avec cinq nouvelles voix nommées Arbor, Maple, Sol, Spruce et Vale. Ces voix viennent compléter celles déjà existantes, telles que Breeze, Juniper, Cove et Ember. Chaque voix possède des caractéristiques uniques en termes de timbre et d’élocution, rendant les conversations encore plus diversifiées. À noter toutefois, l’absence remarquée de Sky, une voix initialement inspirée par Scarlett Johansson, retirée suite à une polémique concernant l’utilisation non autorisée de la voix de l’actrice.
Malgré ces nouveautés, une fonctionnalité présentée à Paris plus tôt dans l’année manque à l’appel : la capacité pour ChatGPT de voir et écouter son environnement pendant une conversation. Lors des démonstrations, OpenAI avait montré que l’IA pouvait analyser des images partagées en temps réel, une option qui n’a finalement pas été intégrée lors du lancement. Cette omission laisse présager une mise à jour future pour inclure cette fonctionnalité.
Avec cette mise à jour, OpenAI franchit une nouvelle étape dans l’évolution de la communication avec les IA génératives, rapprochant toujours plus ChatGPT d’un véritable assistant personnel intelligent, capable d’interagir presque comme un humain. Les utilisateurs européens attendent désormais avec impatience leur tour pour expérimenter ce mode vocal avancé.