Meta

객체 감지와 3D 재구성을 더 쉽게 만드는 새로운 Segment Anything 모델

주요 내용

  • Meta는 시각적 세계에 대한 AI의 이해를 한 단계 발전시키는 Segment Anything 컬렉션의 최신 모델 SAM 3와 SAM 3D를 공개합니다.
  • SAM 3는 텍스트와 시각적 프롬프트를 사용해 이미지와 영상 속 객체를 감지·추적할 수 있으며, SAM 3D는 단 한 장의 이미지로 3D 객체와 사람을 재구성할 수 있습니다. 
  • 우리의 새로운 플랫폼 Segment Anything Playground에서 SAM 3와 SAM 3D의 기능을 직접 실험해 볼 수 있습니다.

오늘 Meta는 Segment Anything 컬렉션의 새로운 모델인 SAM 3와 SAM 3D를 공개합니다. SAM 3는 텍스트와 시각적 프롬프트를 활용해 이미지와 영상 속 객체를 감지하고 추적할 수 있으며, SAM 3D는 단일 이미지 기반으로 객체와 사람의 3D 형태를 재구성할 수 있습니다. 두 모델 모두 새롭게 공개된 우리의 플랫폼인 Segment Anything Playground에서 지금 바로 체험할 수 있습니다.

이 기술적 발전은 차세대 창작 도구 개발을 지원하며, 영상 편집을 더 간편하게 만들고 시각적 세계와 상호작용하고, 그 세계를 이해하는 새로운 방식을 제공합니다.

말하는 그대로 작동합니다

SAM 3는 이미지와 영상에서 객체를 쉽게 감지, 분할, 추적할 수 있도록 해줍니다. 이러한 기능은 이미지나 영상 편집과 변형을 단순화하는 데 활용될 수 있습니다. SAM 1과 SAM 2는 시각적 프롬프트 기반 분할을 지원했으나, 이제 SAM 3는 사용자가 분할하고자 하는 객체를 텍스트로 상세하게 설명해도 분할이 가능하도록 확장되었습니다.

전통적으로 AI 모델은 언어와 시각 요소를 정확하게 연결하는 데 어려움을 겪어 왔습니다. 기존 모델들은 고정된 텍스트 라벨을 사용하며 “버스”나 “자동차” 같은 단순한 개념은 분할할 수 있지만, “노란 스쿨버스” 같은 세부 개념은 처리하기 어려웠습니다.

SAM 3는 이러한 한계를 극복하여, 훨씬 더 폭넓은 텍스트 프롬프트를 받아들일 수 있습니다. 예를 들어 “빨간 야구 모자”라고 입력하면, SAM 3는 이미지 또는 영상에서 해당되는 객체를 모두 분할합니다. 또한 SAM 3는 멀티모달 대형언어모델과 함께 사용될 수 있어, “앉아 있는 사람 중 빨간 야구 모자를 쓰지 않은 사람”처럼 더 길고 복잡한 텍스트 프롬프트도 이해할 수 있습니다.

Meta는 SAM 3를 활용해 차세대 창작 도구를 구축하고 있습니다. 영상 제작 앱 Edits에서는 곧 크리에이터가 영상 속 특정 인물이나 객체에 효과를 적용할 수 있는 기능을 도입할 예정입니다. 또한 Meta AI 앱과 meta.ai의 Vibes에서도 SAM 3를 활용한 새로운 창작 경험이 곧 제공될 예정입니다.


사진을 생동감 있게 구현합니다

SAM 3D는 단 한 장의 이미지로 3D 객체를 재구성할 수 있도록 설계된 두 개의 오픈소스 모델로 구성되어 있으며, 물리 세계에 대한 AI 기반 3D 재구성의 새로운 기준을 제시합니다. SAM 3D Objects는 객체와 장면을 재구성하고, SAM 3D Body는 인체의 형태와 구조를 정밀하게 추정합니다. 두 모델 모두 강력한 최신 성능을 제공하며, 특히 SAM 3D Objects는 기존의 방법들을 크게 앞서는 결과를 보여줍니다. 또한 저희는 아티스트들과 협업해 다양한 이미지와 객체로 구성된 최초의 평가용 데이터셋인 SAM 3D Artist Objects를 구축했습니다. 이 데이터셋은 3D 연구의 발전을 더욱 정교하고 엄격하게 측정할 수 있는 새로운 기준을 제시합니다.


SAM 3D의 출시는 방대한 데이터를 활용해 물리 세계의 복잡성을 해결하는 데 있어 중요한 진전을 보여줍니다. 이 기술은 로보틱스, 과학, 스포츠 의학 등 다양한 핵심 분야의 발전을 가속할 잠재력을 지니고 있으며, 크리에이티브 영역에서도 폭넓게 활용될 수 있습니다. AR 및 VR의 새로운 가능성을 탐구하는 연구원, 게임용 에셋을 제작하는 크리에이터, 또는 AI 기반 3D 모델링의 잠재력이 궁금한 모두에게 SAM 3D는 시각적 세계를 이해하고 탐색하는 새로운 방식을 제시합니다.

SAM 3D를 활용해 Facebook 마켓플레이스에 ‘방에서 보기(View in Room)’ 기능을 새롭게 도입했습니다. 이 기능을 통해 이용자들은 램프나 테이블과 같은 인테리어 제품을 구매하기 전에, 실제 집 안 공간에서 어떻게 배치되고 어떤 분위기를 낼지 보다 쉽게 확인할 수 있습니다.

최첨단 모델들을 체험해 보세요

SAM 3와 SAM 3D는 전문적인 기술 지식 없이도 누구나 쉽게 사용할 수 있는 새로운 플랫폼인 Segment Anything Playground에서 바로 체험할 수 있습니다. 이미지 또는 영상을 업로드해 시작할 수 있으며, 짧은 텍스트 프롬프트만 입력하면 SAM 3가 해당되는 모든 객체를 자동으로 추출합니다. SAM 3D를 사용해 장면을 새로운 관점에서 바라보거나, 가상으로 재배치하거나, 멋진 3D 효과를 적용할 수도 있습니다. 또는 제공되는 템플릿을 활용해 얼굴·번호판·화면을 픽셀화하는 실용적인 기능부터, 특정 객체 강조·모션 트레일·스포트라이트 등 재미있는 영상 효과까지 다양하게 활용할 수 있습니다.

이번 출시의 일환으로, SAM 3 모델 가중치, 개방 어휘 분할(Open vocabulary segmentation)을 위한 새로운 평가용 벤치마크 데이터셋, 그리고 SAM 3의 개발 과정을 담은 연구 논문을 제공합니다. 또한 어노테이션(Annotation) 플랫폼인 Roboflow와 협력해, 사용자가 자체 데이터에 어노테이션을 추가하고 SAM 3를 특정 용도에 맞게 파인튜닝할 수 있도록 지원합니다.

SAM 3D의 경우 모델 체크포인트와 추론 코드를 공개하는 동시에, 새로운 3D 재구성 벤치마크를 선보입니다. 이 데이터셋은 다양한 이미지와 객체로 구성되어 있으며, 기존 3D 벤치마크 대비 높은 수준의 현실성과 난이도를 제공합니다. 이를 통해 3D 연구 성과를 평가하는 새로운 기준을 세우며, 물리적 세계를 더 깊이 이해하는 방향으로 이 분야를 발전시켜 나갑니다.

이러한 혁신적인 모델들을 공개하게 되어 매우 기쁩니다. 이 도구들을 활용해 창의력을 마음껏 발휘하고, 새로운 것을 만들어내며, 가능성의 한계를 확장하길 바랍니다. 여러분이 어떤 결과물을 만들어낼지 벌써부터 기대됩니다.

SAM 3SAM 3D에 대한 더 자세한 내용은 AI at Meta 블로그에서 확인해 주세요.



Facebook은 콘텐츠를 맞춤화하고, 광고를 조정 및 측정하고, 안전한 경험을 제공하기 위해 쿠키를 사용합니다. 사이트를 클릭하거나 탐색하면 Facebook이 쿠키를 통해 Facebook 및 외부 플랫폼에서 정보를 수집하는 것에 동의하는 것입니다. 이용할 수 있는 관리 기능을 비롯한 자세한 내용을 쿠키 정책에서 알아보세요.