주요 내용
- SeamlessM4T는 번역(translation)과 전사(transcription)가 가능한 최초의 올인원 다국어 멀티모달 AI 모델입니다.
- 단일 모델로, 작업에 따라 최대 100개 언어에 대해 음성-텍스트, 음성-음성, 텍스트-음성, 텍스트-텍스트 번역을 수행할 수 있습니다.
우리가 살고 있는 세상은 그 어느 때보다 서로 연결되어 있으며, 사람들은 다양한 다국어 콘텐츠를 접하고 있습니다. 따라서 어떤 언어로든 소통하고 정보를 이해할 수 있는 능력은 전보다 더 중요해졌습니다.
Meta가 새롭게 선보이는 SeamlessM4T는 최초의 올인원 멀티모달 다국어 번역 AI 모델로, 서로 다른 언어를 쓰고 말하는 사람들이 보다 쉽게 소통할 수 있도록 도와줍니다. SeamlessM4T는 다음과 같은 작업을 지원합니다:
- 약 100개의 언어에 대한 음성 인식
- 약 100개의 언어에 대한 음성-텍스트(speech-to-text) 번역
- 약 100개의 입력 언어와 영어 포함 36개의 출력 언어를 지원하는 음성-음성(speech-to-speech) 번역
- 약 100개의 언어에 대한 텍스트-텍스트(text-to-text) 번역
- 약 100개의 입력 언어와 영어 포함 35개의 출력 언어를 지원하는 텍스트-음성(text-to-speech) 번역
Meta는 그간 추구해온 오픈 사이언스 접근 방식에 따라 SeamlessM4T를 연구용 라이선스로 공개해, 연구자와 개발자들이 활용할 수 있도록 지원합니다. 또한 오늘날 최대 규모를 자랑하는 개방형 멀티모달 번역 데이터셋인 SeamlessAlign의 메타데이터도 공개합니다. 이 데이터셋은 총 27만 시간 분량의 마이닝된 음성 및 텍스트 데이터를 정렬한 것입니다.
소설 <은하수를 여행하는 히치하이커를 위한 안내서>에 등장하는 가상의 존재 ‘바벨 피쉬’처럼, 전 세계의 언어를 번역하는 시스템을 구축하는 것은 어려운 일입니다. 기존의 음성-음성 변역 및 음성-텍스트 번역 시스템들은 이 세상에 존재하는 수많은 언어 중 극히 일부만을 지원하기 때문입니다. 범용 번역 시스템을 구축하는 이 여정에서 SeamlessM4T는 중요한 이정표가 될 것이라고 믿습니다. 여러 개의 모델을 각각 사용하는 것과 비교했을 때, SeamlessM4T의 단일 시스템 방식은 번역 과정의 오류와 지연을 줄여 효율성과 결과물의 품질을 높입니다. 이는 서로 다른 언어를 사용하는 사람들이 보다 효과적으로 소통할 수 있게 해줍니다.
SeamlessM4T는 지난 수년간 Meta와 여러 관계자들이 범용 번역기를 만들겠다는 일념 아래 일궈낸 성과들을 기반으로 구축되었습니다. 지난해 Meta는 200개 언어를 지원하는 텍스트-텍스트 번역 모델인 NLBB(No Language Left Behind)를 출시했으며, 이후 해당 모델은 위키피디아의 번역 공급자 중 하나로 통합되었습니다. 또한 Meta는 통용되는 문자 체계가 없는 언어인 ‘호키엔어(hokkien)’를 위한 최초의 음성-음성 번역 시스템인 Universal Speech Translator의 데모 버전을 공유한 바 있습니다. 올해 초에는, 1,100개 이상의 언어에 대해 음성 인식, 언어 식별 및 음성 합성 기술을 제공하는 MMS(Massively Multilingual Speech)를 공개하기도 하였습니다.
SeamlessM4T는 이러한 프로젝트들에서 얻은 인사이트를 바탕으로 만들어져, 광범위한 음성 데이터 소스와 최신 연구결과들로 구축됐으며, 단일 모델로 다국어 멀티모달의 번역 경험을 가능케 합니다.
이번 모델 공개는 서로 다른 언어를 사용하는 사람들을 연결해주는 AI 기반 기술을 구축하기 위한 Meta의 지속적인 노력의 일환입니다. 앞으로도 Meta는 이러한 기초 모델을 통해 새로운 소통방식의 가능성을 열고, 서로를 더 잘 이해함으로써 궁극적으로 모두가 더 가까워질 수 있는 세상을 만들기 위해 계속해서 탐구할 계획입니다.
SeamlessM4T에 대해 더 알고 싶으면 Meta AI 블로그를 확인하세요.