어제, 파리 폴리테크닉 연구소에서 열린 국제 과학 회의에서, Kyutai의 총괄 이사 Patrick Perez는 히비키라는 동시 음성 번역 모델을 발표했습니다. 이 시스템은 화자의 목소리를 보존하면서도 원본 연설의 의미적 내용에 맞춰 리듬을 조절하는 능력으로 구별되며, 실시간으로 구두 및 서면 번역을 제공합니다.

Station F에서 Xavier Niel이 설립한 기업 Iliad의 자회사 Scaleway가 주최한 AI Pulse 회의에서 Kyutai는 2023년 11월 17일, 과학 팀 및 세 명의 공동 창립자인 Xavier Niel, CMA CGM 그룹 창립자의 아들이자 현재 이 그룹을 이끄는 Rodolphe Saadé, 그리고 Google의 전 CEO Eric Schmidt와 함께 출범했습니다. 이 비영리 사설 연구소는 Iliad로부터 1억 유로, CMA CGM 그룹으로부터 1억 유로, 그리고 Eric Schmidt와 그의 아내 Wendy가 공동 설립한 자선 기업인 Schmidt Futures로부터 1억 유로로 총 3억 유로의 자금을 확보했습니다.

전적으로 오픈 AI 연구에 전념하는 Kyutai는 "현대 AI의 도전과제"를 해결하기 위한 LLM 개발과 공동의 이익을 위한 유럽 주권 AI 활성화를 목표로 하고 있으며, 이 과정에서 Iliad 그룹의 클라우드 활동에 전념하는 자회사 Scaleway의 컴퓨팅 파워를 활용하고 있습니다. Yann LeCun을 과학 자문으로 두고 있는 이 연구소는 현재 약 15명의 직원이 근무 중입니다.

2024년 7월, Kyutai는 그들의 LLM Helium 7B를 기반으로 한 최초의 오픈 소스 음성 AI인 Moshi를 발표했고, 지난 1월 13일에는 약 20억 개의 매개변수를 가진 경량 버전인 Helium-1의 미리보기를 공개했습니다. 이 버전은 모바일 장치 및 자원이 제한된 환경에서 효과적으로 작동하도록 설계되었으며, 현재 프랑스어, 독일어, 영어, 스페인어, 이탈리아어 및 포르투갈어 등 6개의 유럽 언어를 지원하고 있습니다. 연구소는 이를 향후 몇 달 안에 출판할 계획입니다.

히비키, 동시 음성 번역 모델

Moshi 출시 후 불과 여섯 달 만에 Kyutai는 히비키(일본어로 '메아리')를 공개했습니다. 이 모델은 프랑스어에서 영어로 번역하기 위해 공개 데이터를 기반으로 학습되었으며, 번역 품질, 화자의 음성 충실도 및 자연스러움에서 현재의 최첨단 기술을 능가한다고 합니다.

또한, 간단한 추론 프로세스를 통해 클라우드에서 효율적인 배포를 위한 번역 그룹화가 가능하며, 모바일에서의 실시간 사용도 가능하게 합니다.

오픈 소스에 대한 헌신을 지키며, 이 연구소는 프랑스어-영어 모델의 추론 코드, 모델의 가중치 및 상세한 기술 보고서를 제공하고 있습니다. 결론적으로,

"연구자 및 AI 커뮤니티는 히비키를 그들의 프로젝트에 통합하고 다른 언어로 확장할 수 있을 것입니다. 이는 음성 기술의 새로운 단계이며, 커뮤니케이션 및 접근성 분야에서 놀라운 기회를 열어줍니다."