Hier, lors de la conférence scientifique internationale qui s’est tenue à l’Institut Polytechnique de Paris dans le cadre de la Semaine pour l’Action sur l’IA, Patrick Perez, Directeur général de Kyutai, a présenté Hibiki, un modèle de traduction vocale simultanée. Ce système se distingue par sa capacité à préserver la voix du locuteur tout en adaptant son rythme au contenu sémantique du discours source, offrant ainsi une traduction orale et écrite en temps réel.

C’est à Station F, lors de la conférence AI Pulse, organisée par Scaleway, filiale de l’entreprise Iliad fondée par Xavier Niel, que Kyutai a été lancé le 17 novembre 2023 en présence de son équipe scientifique et de ses trois co-fondateurs : Xavier Niel, Rodolphe Saadé, fils du fondateur du groupe CMA CGM dont il assure la direction, et Eric Schmidt, ex-PDG de Google. Ce laboratoire d’initiative privée à but non-lucratif a été financé à hauteur de 300 millions d’euros, 100 millions d’euros d’Iliad, 100 du groupe CMA CGM et les 100 derniers restants via Schmidt Futures, l’entreprise philanthropique cofondée par Eric Schmidt et sa femme Wendy.

Entièrement dédié à la recherche ouverte en IA, Kyutai s’est donné pour objectif de développer des LLMs pour s’attaquer “aux défis de l’IA moderne” et activer une IA européenne souveraine pour le bien commun, et ce, en s’appuyant sur la puissance de calcul de Scaleway, filiale dédiée aux activités cloud du Groupe Iliad. Le laboratoire, qui a pour conseiller scientifique Yann LeCun, compte actuellement une quinzaine de collaborateurs.

Après avoir présenté en juillet 2024 Moshi, la 1ère IA vocale open source, basée sur son LLM Helium 7B, Kyutai a donné un aperçu le 13 janvier dernier d'Helium-1, une version allégée comptant environ 2 milliards de paramètres. Conçue pour fonctionner efficacement sur des appareils mobiles et des environnements à ressources limitées, cette version préliminaire prend actuellement en charge six langues européennes : français, allemand, anglais, espagnol, italien et portugais. Le laboratoire prévoit de le publier dans les mois à venir.

Hibiki, un modèle de traduction vocale simultanée

Seulement six mois après la sortie de Moshi, Kyutai dévoile Hibiki (écho, en japonais). Le modèle, qui a été entraîné sur des données publiques pour traduire du français vers l'anglais, dépasse selon lui sur cette tâche l’état de l’art actuel, en termes de qualité de traduction, de fidélité vocale du locuteur et de naturel.

De plus, la simplicité de son processus d'inférence lui permet la traduction groupée pour un déploiement efficace dans le cloud, ainsi que pour une utilisation en temps réel sur mobile.

Fidèle à son engagement envers l'open source, le laboratoire met à disposition les codes d’inférence, les poids du modèle français-anglais et un rapport technique détaillé, concluant :

"Les chercheurs et la communauté de l’IA pourront ainsi reprendre Hibiki dans leurs projets, et l’étendre à d’autres langues. Il s’agit d’une nouvelle étape pour les technologies de la voix : elle ouvre des opportunités extraordinaires en matière de communication et d’accessibilité."