사람들끼리 소통하는 방법과 동일하게 AI 어시스턴트와 자연스러운 대화형 언어로 소통할 수 있다면 사람들의 삶은 무수히 많은 방면에서 간편해질 것입니다. 오늘날의 AI 어시스턴트는 음성이 됐든 문자가 됐든 여러모로 소통이 만족스럽지 못한 게 사실입니다. ‘지금부터는 하루 종일 엄마 전화 말고는 모든 알림은 묵음으로 해 줘’ 같은 일상의 요청은 물론이고 ‘개인적으로 파티를 열 수 있게 지역 커뮤니티 센터 좀 빌릴 수 있을까?’ 같은 질문을 하거나 ‘독립기념일 주말에 해변에서 가족끼리 적당한 가격에 휴가를 보낼 수 있게 계획 좀 짜 줘’ 같은 일을 시키면 쉽사리 당황하고 맙니다.
이제는 대화형 AI가 더 똑똑해져야 할 때입니다.
그러한 취지에서 카이라오케(CAIRAOke)프로젝트를 발표하게 된 것을 기쁘게 생각합니다. Meta는 오늘날 사람들에게 친숙한 시스템보다 훨씬 더 개인적이고 상황에 맞는 대화가 가능한 엔드투엔드 신경 모델을 개발했습니다. 카이라오케 프로젝트의 결과물인 신경 모델은 이미 Meta의 제품인 Portal에 적용되고 있습니다. 앞으로는 증강 현실과 가상 현실 기기에 통합해 어시스턴트 시스템과 몰입도 높은 멀티모달 상호 작용이 가능해지도록 만드는 것을 목표로 하고 있습니다.
아마도 이제까지 대화형 AI의 발전에 있어서 가장 큰 장애물은 오늘날의 최첨단 어시스턴트 시스템에도 적용되고 있는 아키텍처일 것입니다. 첨단 어시스턴트 시스템에서 제공하는 서비스는 하나지만 실제로는 자연어 이해(NLU), 대화 상태 추적(DST), 대화 정책(DP) 관리, 자연어 생성(NLG) 등 네 가지 별도의 구성요소를 사용합니다. 이러한 별도의 AI 시스템들이 하나로 연결되어야 하는데, 이때 최적화가 어렵고 새롭거나 익숙하지 않은 작업에 잘 적응하지 못하며 노동 집약적인 주석화된 데이터 세트에 크게 의존하는 문제가 발생합니다.
이러한 이유로 오늘날 대부분의 기기에 사용되고 있는 디지털 어시스턴트가 사용자에게 옵션을 제한적으로 제공하고 대화의 맥락은 잊고 대부분 정해진 대화의 흐름만 따라가는 데 그치고 마는 것입니다. 예를 들어 디지털 어시스턴트에게 지역 일기예보를 물어보다가 ‘지난주보다 덥니?’ 같은 간단하지만 예상치 못한 질문을 뒤이어 던지면 당황하고 맙니다.
반면 카이라오케 프로젝트에서 개발한 모델이 적용되면 사람들은 대화형 어시스턴트와 자연스럽게 대화를 할 수 있기 때문에 대화에서 앞서 등장했던 이야기를 다시 언급할 수 있고 대화의 주제를 완전히 바꿔도 문제가 없으며 복잡하고 미묘한 차이가 있는 문맥을 이해해야 가능한 이야기도 나눌 수 있습니다. 또한 제스처의 사용처럼 새로운 방식으로도 상호 작용이 가능해집니다.
Meta에서는 알림의 생성과 관리를 수월하게 하기 위해 Meta의 영상 통화 기기인 Portal에서 해당 모델을 사용하기 시작했습니다. 다음에서 보는 예와 같이 요청을 명확하게 해야 할 때 반복할 필요 없이 빠르게 할 수 있습니다.
아직 테스트 초기지만 이 모델은 일반 접근법보다 우수한 성과를 거둘 것입니다. 알림 영역의 평가에서 기회 횟수를 동일하게 유지하면서 일련의 알림 목표 완수율을 측정한 결과, 기존 접근법과 비교해 의미 있는 개선사항이 Portal에서 관찰됐습니다.
하지만 아직은 새로운 기술을 활용하기 위한 첫 단계일 뿐입니다. 카이라오케 프로젝트로 이뤄낸 진전을 바탕으로 메타버스 구축에 있어서 필수 도구가 될 AI와 사람 간의 의사소통이 보다 다채로워질 것으로 믿습니다. AR 안경에 탑재된 카이라오케 프로젝트 기반의 어시스턴트 역시 언젠가는 여러 가지 새롭고 유용한 방식으로 마찬가지의 결과를 보여줄 수 있을 것입니다. 가령, ‘이 바지랑은 뭐가 어울려?’라고 물으면 ‘가장 좋아하는 빨간색으로 셔츠를 입으면 좋을 것 같아요’라고 대답하면서 스스로 찾아낸 아이템의 이미지를 띄울 수 있습니다. 또, ‘마음에 드는데 스트라이프가 너무 굵네’라고 의견을 말하면 가는 스트라이프의 셔츠를 대신 보여줍니다.
미래에 전 세계 수백만 명의 사람들을 위해 일상 애플리케이션에 카이라오케 프로젝트에서 개발한 모델을 활용할 수 있기를 희망합니다.
진정한 양방향 대화형 AI의 구축
대화형 AI를 발전시키는 데 필요한 단계 중 하나가 문제의 전체 범위를 파악하는 것입니다. 최근 들어 BART, GPT-3 등 자연어 이해와 관련된 여러 진전 사항을 보면서 많은 사람이 인간이 사용하는 것과 유사한 텍스트를 이해하고 생성하는 문제가 해결됐다고 생각합니다. 그러나 실제로는 왜 아직 그러한 단계에 도달하지 못했는가를 알려면 이해를 위한 AI와 상호 작용을 위한 AI를 구분해야 합니다. 전자는 업계 전반에서 연구와 개발이 순조롭게 이뤄지고 있는 분야로, 자동 음성 인식, 이미지 분류, 자연어 이해처럼 다양한 입력 형식에서 의미를 추출하는 데 사용됩니다. 반면 후자는 기술을 사용하는 다른 사람과 상호 작용하기 위해 세상에 대한 사람들의 이해를 사용하는 방법입니다. 텍스트, 음성 명령, 햅틱 피드백을 전송하는 것과 이미지, 동영상, 아바타 얼굴을 보여주는 것, 또는 이 두 가지의 결합 등이 이에 해당합니다.
업계의 연구원들과 엔지니어들은 대화형 시스템의 성능이 좋으려면 AI 모델을 기반으로 한 이해 계층이 견고해야 한다는 데 동의합니다. 그러나 많은 사람이 느끼기에는 상호 작용은 AI 문제라기보다는 엔지니어링 문제입니다. 따라서 세상의 사정을 이해하는 엔지니어가 필수 상호 작용을 처리할 수 있는 정교한 논리도 만들 수 있다고 생각합니다. 이러한 엔지니어링 방식으로 접근하면 시스템 작동 방법을 쉽게 파악하고 필요한 경우 논리를 신속하게 디버깅할 수 있습니다. 그런데 이러한 일반적인 생각이 대화형 AI의 성능 약화로 이어집니다. 어시스턴트를 통해 휴가 계획을 세울 수 없는 이유도 바로 이것 때문입니다.
새로운 통합 접근법
AI 기반 어시스턴트에 대한 표준 접근법에는 네 개의 입력 및 출력 집합이 필요합니다. 각각의 집합은 파이프라인의 각 계층(자연어 이해, 대화 상태 추적, 대화 정책, 자연어 생성)에 사용됩니다. 아울러 계층마다 입력 및 출력에 대해 정의된 기준이 필요합니다. 예를 들어 자연어 이해의 경우, 기존의 대화형 AI 시스템에는 온톨로지 정의가 요구됩니다.
그러나 카이라오케 프로젝트 모델은 신경망을 사용하고 대화의 흐름을 전혀 규정하지 않습니다. 이 모델에는 훈련 데이터 세트 하나만 있으면 됩니다.
카이라오케 프로젝트는 새로운 영역을 추가하는 데 필요한 작업을 줄여줍니다. 기존의 표준 접근법에서는 새로운 영역으로 확장하려면 각 모듈이 차례대로 구축되고 확정돼야 다음 모듈이 확실하게 훈련될 수 있습니다. 다시 말하자면 자연어 이해와 대화 상태 추적이 매일 변경될 경우 대화 정책 훈련이 효과적으로 수행될 수 없다는 뜻입니다. 따라서 하나의 구성요소가 변경되면 다른 구성요소들이 깨져 이후의 모든 모듈을 재훈련해야 하는 일이 발생합니다. 이러한 상호의존성은 이어지는 모듈들의 진행 속도에 영향을 줍니다. 그러나 Meta의 엔드투엔드 기술은 업스트림 모듈에 대한 의존성을 제거하므로 개발과 훈련 속도가 단축되고 노력과 데이터를 줄이고도 다른 모델을 세부 조정할 수 있습니다.
이러한 새로운 접근법에서는 단일 장소에서 정보의 전체 범위를 살펴보고 결정을 내릴 수 있기 때문에 훨씬 더 견고한 대화가 가능해집니다. 과거에는 하나의 구성요소에 작은 오류가 생겨도 예상치 못한 방식으로 다른 구성요소에 영향을 미칠 수 있었기 때문에 해결이 어려웠습니다. 예를 들어 현재 사용되고 있는 규칙 기반 도우미는 오후를 나타내기 위해 숫자 앞에서 ‘오후’라는 특정 단어를 찾도록 프로그래밍된 것과 달리, 카이라오케 프로젝트는 맥락을 더 잘 이해하는 사전 훈련된 첨단 언어 모델을 활용하여 똑같은 내용을 다양하게 말하는 방식을 인지할 수 있습니다.
마지막으로 카이라오케 프로젝트는 Meta AI의 최신 대화형 봇인 BlenderBot 2.0을 지원하는 기술을 작업 중심의 대화에 결합합니다. 즉, Meta 모델을 사용해 개발된 어시스턴트는 감정이 이입된 언어를 표현하고 실시간으로 인터넷을 검색해 찾은 지식을 전달하며 일관된 개성을 표현할 수 있게 될 것입니다.
한편 시스템에서 자연어를 생성할 때 잠재적인 안전 및 개인정보 보호 문제를 반드시 해결할 수 있어야 합니다. 오늘날 대부분의 자연어 생성 구성요소는 어시스턴트가 사용자에게 무례한 응답을 제공하지 않는 것을 콘텐츠 관리자가 확실히 할 수 있도록 스크립트로 작성됩니다. 그러나 여러 좋지 않은 선례에서 봐왔듯이 어시스턴트를 사용자에게 직접 연결하기 때문에 실수나 불쾌한 상호 작용이 발생할 위험이 존재합니다.
Meta는 불쾌한 대답이 일어날 경우를 줄이는 데 도움이 되도록 BlenderBot에 내장된 안전 장치를 통합했습니다. 또한 개인정보 보호를 염두에 두고 어시스턴트 기술을 구축하고 있습니다. 예를 들어 Ray-Ban Stories와 Portal을 사용하면 음성 명령 사용은 선택 사항이고 음성 명령의 내용을 보거나 삭제할 수 있으며 음성 스토리지를 끌 수 있는 옵션이 항상 있습니다.
사용자에게 무례한 응답을 생성할 위험을 완화하기 위한 카이라오케 프로젝트의 첫 번째 마일스톤은 대화 행동과 자연어를 모두 생성하는 것이었습니다. 단기적으로는 사용자 응답을 제공하기 위해 대화 행동을 생성하고, 테스트를 완료하고 엄격히 제한한 자연어 생성 시스템을 사용합니다. 그리고 장기적으로는 모델의 엔드투엔드 무결성을 보장한 후에 생성된 문장들을 노출시킬 계획입니다.
다른 종류의 자연어 처리 시스템에도 존재하는 또 다른 문제는 모델이 정확하지 않은 정보를 자신 있게 말하는 경우인 착각(hallucination)입니다. 모델이 훈련 데이터를 바탕으로 대화에서 엔터티를 도입하거나 변경하는 경향을 보일 수 있으므로 이것은 엔드투엔드 기술의 커다란 과제입니다. 예를 들어 어시스턴트에게 ’제이산’에게 전화하라고 알림 설정해 줘’라고 요청하면 제이산이라는 이름이 흔한 이름이 아니기 때문에 제이슨에게 전화하는 것으로 알림을 설정할 수 있습니다. Meta는 카이라오케 프로젝트를 강화하기 위해 다양한 데이터 증강 기법과 주의 네트워크를 사용하였으며 착각을 완화하기 위해 BlenderBot 2.0 작업을 활용했습니다.
수많은 일상 업무를 위한 음성 사용
카이라오케 프로젝트 모델은 단기적으로 Portal의 알림에서 이행됐으나 Meta는 조만간 더욱 폭넓은 영역에서 모델을 활용해 사람들의 쇼핑 경험을 개인 맞춤화하고 다수의 채팅에서도 어시스턴트가 맥락을 유지할 수 있으며 사람이 대화의 주도권을 잡을 수 있도록 하는 데 도움이 되기를 기대합니다.
또한 이러한 발전은 증강 현실을 위한 AI 중심의 대화 역량을 구축하는 데 특히 유용합니다. 머지않아 사람들은 오늘날 스마트 스피커, 스마트워치, 기타 기기에서 그러하듯이 AR 안경에서 음성 어시스턴트를 자주 사용할 것입니다. 이 점을 염두에 두고 Meta는 AR 안경의 음성 어시스턴트처럼 온디바이스에 맞게끔 엔드투엔드 모델의 크기를 줄이기 위해 노력하고 있습니다. 온디바이스 모델에서도 보안, 개인정보 보호, 성능 이점을 강화하는 것이 가능합니다. 뿐만 아니라 모델을 더 쉽게 디버깅할 수 있도록 만들고 있습니다. 이 작업은 새로운 프레임워크에서는 정보가 내장 공간에 표시되는 것과 달리 표준 모델에서는 겉으로 드러나기 때문에 복잡한 과제입니다. 아울러 카이라오케 프로젝트에 대한 비전을 완전히 실현하기 위해서는 모델을 여러 언어로 확장하고 대규모로 모델을 효율적으로 사용하기 위한 방법을 찾아야 할 것입니다.
그래서 몇 년 후에는 카이라오케 프로젝트에서 개발된 기술이 사람과 기기 간 차세대 상호 작용의 기저를 이룰 수 있다고 생각합니다. 스마트폰에서 터치스크린이 키패드를 대체했듯이 VR 헤드셋이나 AR 안경 같은 기기에서는 결국에는 이러한 종류의 커뮤니케이션이 보편적이고 원활한 탐색과 상호 작용의 방식이 될 것으로 기대합니다. Meta가 개발한 현재의 모델이 중요한 진전임에는 분명하지만 비전을 완전히 실현하기 위해 아직 해야 할 일이 많습니다. 저희는 지금까지 이뤄낸 진전을 기쁘게 생각하며 앞으로 남은 도전 역시 기대하고 있습니다.