개방형 연구로 발전해 온 지난 10년간의 최첨단 AI 기술

주요 내용

올해 Meta의 인공지능연구소, FAIR(Fundamental AI Research)가 10주년을 맞이했습니다.
1인칭 시점과 외부 시점, 오디오 생성 및 언어 번역을 결합하는 데 혁신적인 성과를 거둔 Ego-Exo4D, Audiobox(오디오박스), Seamless Communication(심리스 커뮤니케이션) 등 새로운 AI 모델과 데이터셋을 소개합니다.

오늘은 Meta의 인공지능연구소, FAIR(Fundamental AI Research)의 10주년을 기념하는 날입니다. 지난 10년 동안 FAIR는 많은 AI 혁신의 원천이자, 개방적이고 책임감 있는 연구의 길잡이 역할을 해왔습니다. 개방형 과학을 지향하는 Meta는 AI 관련 논문과 코드, 모델, 데모, 책임감 있는 사용 가이드 등 모든 영역의 연구 결과를 투명하게 공개하고자 최선을 다하고 있습니다.

지난 10년 동안 우리는 이미지 속 물체를 인식하는 Segment Anything(SAM) 모델을 통해 객체 감지 분야에서 주목할 만한 발전을 이루었습니다. 또한, 비지도 기계 번역(unsupervised machine translation) 기술 분야를 개척한 최초의 연구소 중 하나로, 영어에 의존하지 않고도 100개 언어를 번역할 수 있는 모델을 구축할 수 있었습니다. 이는 No Language Left Behind라는 혁신 프로젝트로 이어졌으며 최근에는 텍스트와 음성 간 변환 기술의 적용 언어를 1,000개 이상으로 확장했습니다.

올해 초 Meta는 사전 학습된 개방형 대규모 언어 모델 Llama를 출시한 데 이어, 연구와 상업적 용도로 사용할 수 있는 모델 Llama2도 선보였습니다. 이후 Meta의 연례 컨퍼런스 Connect에서는 생성형 AI팀과 제품팀의 연구의 결실인 새로운 AI 제품들과 경험들을 공개했으며, 이는 현재 수백만 명의 사람들이 사용하고 있습니다.

오늘은Ego-Exo4D(이고-엑소4D), Audiobox(오디오박스), 그리고 Seamless Communication(심리스 커뮤니케이션)의 발전 사항을 공유하고자 합니다.

AI 모델에 1인칭 시각과 외재적 시각 적용

우리가 세상을 보는 방식대로 AI도 세상을 인식할 수 있도록, Meta는 Ego-Exo를 업데이트했습니다. 최신 데이터 세트인 Ego-Exo4D(이고-엑소4D)는 웨어러블 카메라의 1인칭 시점(자기 중심적)과 카메라 주변 외부인의 시점(외재적 시각)을 동시에 감지할 수 있습니다. 이러한 시점의 결합은, 사람들이 외부 환경과 자신이 보고 듣는 것을 결합하는 방식에 대해 AI가 더 잘 이해할 수 있도록 해줍니다.

미래에는 스마트 글래스를 착용하면 튜토리얼 동영상을 통한 가상 AI 코치의 도움을 받아 새로운 기술을 빠르게 습득할 수 있게 될 것입니다. 예를 들어, 자전거 바퀴를 수리하거나 축구공으로 기술을 선보이거나, 종이로 백조를 접는 전문가의 모습을 내가 따라할 수 있다고 생각해 보세요.

Audiobox로 음성 및 음향 효과 생성하기

올해 초, Meta는 오디오 편집, 샘플링, 스타일링에 도움을 줄 수 있는 생성형 AI 모델 Voicebox(보이스박스)를 소개한 바 있습니다. 후속작인 Audiobox(오디오박스)는 오디오용 생성형 AI를 한층 더 발전시켰습니다. Audiobox를 사용하면 음성 명령어나 텍스트 설명으로 내가 만들고 싶은 종류의 소리나 음성 유형을 묘사할 수 있습니다. 예를 들어 “강물이 흐르고 새들이 지저귀는 소리”와 같은 음성 명령어로 사운드트랙을 만들 수 있는 것이죠. “높은 음조와 빠른 속도로 말하는 젊은 여성”과 같은 명령어로도 음성을 생성할 수 있습니다. Audiobox를 통해 모든 프로젝트에 맞는 맞춤형 오디오를 쉽게 만들 수 있는 것입니다.

보다 원활한 언어 번역 실현

SeamlessM4T에 이어, 이제 언어 간 표현 차이를 더 잘 파악하고, 화자가 말하는 동안에도 번역을 진행해 더 빨라진 속도를 자랑하는 AI 번역 모델 모음, Seamless Communication(심리스 커뮤니케이션)을 소개합니다. 기존의 언어 번역 서비스는 화자의 목소리 톤, 잠깐의 정지, 강조 등 감정과 의도를 포착하는 중요한 신호를 놓치는 경우가 많았습니다. SeamlessExpressive(심리스 익스프레시브)는 교차 언어 커뮤니케이션을 가능하게 하는 최초의 공개 시스템입니다. 이 시스템은 화자의 감정과 스타일을 보존하고 말의 속도와 리듬을 인식하는 모델을 사용합니다. 현재 이 모델은 영어, 스페인어, 독일어, 프랑스어, 이탈리아어 및 중국어에 활용 가능합니다.

SeamlessStreaming(심리스 스트리밍)은 다른 언어를 사용하는 사람과의 실시간으로 대화할 수 있도록 돕습니다. 화자가 문장을 끝낸 후 번역을 시작하는 기존 시스템과 달리, 심리스 스트리밍은 화자가 말을 하는 동안에도 번역하므로, 번역 결과를 더 빨리 들을 수 있습니다.

Meta는 AI의 여러가지 과제들을 해결할 준비가 돼있습니다. 소프트웨어, 하드웨어, 인프라에 대한 투자를 통해 우리는 연구에서 얻은 교훈을 수십억 명의 사람들에게 혜택을 줄 수 있는 제품으로 만들어낼 수 있습니다.

FAIR는 Meta의 성공에 있어 매우 중요한 요소이며, 업계에서 가장 뛰어난 인재, 개방적인 문화, 무엇보다도 자유로운 탐구적 연구 지원 등 진정한 혁신을 이룰 수 있는 모든 요건을 갖춘 세계 유일의 조직이라 자부합니다. 이 자유로움은 우리가 계속해서 민첩하게 변화에 대응할 수 있도록 하고, 사회적 연결의 미래를 그려나가는 데 기여할 수 있도록 해주었습니다.

책임감 있는 AI 연구

우리가 책임감 있는 AI 연구와 개방성을 중시하는 이유는, 동료들 간의 면밀한 검토를 거친 작업을 외부에 공유하면 더 우수하고 신뢰할 수 있는 결과물을 만들 수 있기 때문입니다. 또한 더 넓은 커뮤니티와 협업할 수 있게 해주어, 더 빠른 발전과 더 다양한 혁신가를 확보할 수 있습니다. Meta가 책임감 있는 AI 연구를 어떻게 수행하고 있는지 자세히 알아보세요.