AI 탐구노트

Sapiens : 4가지 비전 작업을 지원하는 시각 모델 본문

AI 기술

Sapiens : 4가지 비전 작업을 지원하는 시각 모델

42morrow 2024. 9. 27. 10:58

 

사람의 2D 포즈 추정, 신체 부위 분할, 깊이 예측, 표면 법선 예측을 수행하는 단일 모델

 

Sapiens는 인간 중심의 4가지 주요 비전 작업(2D 포즈 추정, 신체 부위 분할, 깊이 예측, 표면 법선 예측)을 위한 고성능 비전 트랜스포머 모델입니다.

 

기존 모델들은 인간 중심의 비전 작업에서 일반화 성능이 낮고, 다양한 작업을 일관되게 수행하기 어렵다는 한계가 있었습니다. 또한, 현실 세계의 데이터를 충분히 반영하지 못하거나, 고해상도 출력을 지원하지 못해 세부적인 표현이 부족했습니다.

 

 

Sapiens3억 장 이상의 인간 이미지 데이터셋(Human-300M)MAE(Masked AutoEncoder) 접근 방식을 사용하여 사전 학습된 비전 트랜스포머 모델(ViT)을 활용하여 2D 포즈 추정, 신체 부위 분할, 깊이 예측, 표면 법선 예측과 같은 인간 중심 작업에 특화된 파인튜닝을 수행합니다.

 

대규모 데이터셋을 사용한 사전 학습과 단순한 모델 구조 덕분에 다양한 상황에서도 높은 성능을 보입니다. 사용된 훈련 데이터셋에는 전신 키포인트(308개)가 포함되어 있는데 이 가운데 얼굴(243개), 손(40) 등은 다른 포즈 추정 데이터셋에 비해 좀 더 세분화되어 있다고 할 수 있습니다. 

 

 

Sapiens의 특징은 다음과 같습니다. 

  • 고해상도(1K, 1024x1024) 추론을 네이티브로 지원하며, 인간 중심 작업에 뛰어난 성능을 발휘합니다.
  • 3억 장의 인간 이미지를 기반으로 자가 지도 학습 방식을 통해 일반화 능력을 크게 향상시켰습니다.
  • 사전 학습 후 각 작업에 맞게 간단한 파인튜닝을 통해 다양한 작업에 쉽게 적용할 수 있습니다.
  • 대규모 매개변수(최대 20억 개)를 가진 모델로, 모델의 크기가 커질수록 성능이 향상됩니다. (더 많은 데이터 더 높은 성능!)

 

사진 : 4가지 비전 작업에 대해 파인튜닝한 결과물 예시

 

 

 

참고) 프로젝트, 논문, 코드, 데모, 소개글(LearnOpenCV)