昨天,在巴黎理工学院举办的国际科学会议上,作为人工智能行动周的一部分,Kyutai的总经理Patrick Perez展示了Hibiki,一个同声传译模型。该系统的独特之处在于能够保持说话者的声音,同时根据源语音的语义内容调整节奏,实现实时的口头和书面翻译。

在由Iliad子公司Scaleway组织的AI Pulse大会上,Kyutai于2023年11月17日在Station F正式启动,Xavier Niel、CMA CGM集团创始人的儿子兼集团负责人Rodolphe Saadé及前谷歌CEO Eric Schmidt三位联合创始人出席。这个私人非营利性实验室获得了3亿欧元的资金支持,其中1亿来自Iliad,1亿来自CMA CGM集团,剩下的1亿由Eric Schmidt及其妻子Wendy共同创立的慈善企业Schmidt Futures提供。

Kyutai完全致力于开放的人工智能研究,其目标是开发大型语言模型(LLM),以解决“现代人工智能的挑战”,并致力于为公益开发欧洲自主的人工智能,依靠Iliad集团云业务专属子公司Scaleway的计算能力。实验室的科学顾问是Yann LeCun,目前拥有大约十五名员工。

在2024年7月推出了基于其Helium 7B LLM的首个开源语音AIMoshi后,Kyutai在今年1月13日展示了Helium-1的预览版,该版本约有20亿参数,旨在有效地在移动设备和资源有限的环境中运行,目前支持六种欧洲语言:法语、德语、英语、西班牙语、意大利语和葡萄牙语。实验室计划在未来几个月内发布此版本。

Hibiki,同声传译模型

仅在Moshi推出六个月后,Kyutai发布了Hibiki(在日语中意为“回声”)。这个模型经过公共数据训练,从法语到英语的翻译任务在翻译质量、说话者声音保真度和自然性方面超越了现有的技术水平。

此外,其简单的推理过程允许在云中进行高效的批量翻译部署,并可以在移动设备上实时使用。

秉持对开源的承诺,实验室提供了推理代码、法英模型的权重以及详细的技术报告,总结道:

“研究人员和人工智能社区因此能够在他们的项目中使用Hibiki,并扩展到其他语言。这是语音技术的新阶段:它为通信和可访问性提供了非凡的机会。”