Sapiens : 4가지 비전 작업을 지원하는 시각 모델

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

AI 탐구노트

Sapiens : 4가지 비전 작업을 지원하는 시각 모델 본문

AI 기술

Sapiens : 4가지 비전 작업을 지원하는 시각 모델

42morrow 2024. 9. 27. 10:58

사람의 2D 포즈 추정, 신체 부위 분할, 깊이 예측, 표면 법선 예측을 수행하는 단일 모델

Sapiens는 인간 중심의 4가지 주요 비전 작업(2D 포즈 추정, 신체 부위 분할, 깊이 예측, 표면 법선 예측)을 위한 고성능 비전 트랜스포머 모델입니다.

기존 모델들은 인간 중심의 비전 작업에서 일반화 성능이 낮고, 다양한 작업을 일관되게 수행하기 어렵다는 한계가 있었습니다. 또한, 현실 세계의 데이터를 충분히 반영하지 못하거나, 고해상도 출력을 지원하지 못해 세부적인 표현이 부족했습니다.

Sapiens는 3억 장 이상의 인간 이미지 데이터셋(Human-300M)로 MAE(Masked AutoEncoder) 접근 방식을 사용하여 사전 학습된 비전 트랜스포머 모델(ViT)을 활용하여 2D 포즈 추정, 신체 부위 분할, 깊이 예측, 표면 법선 예측과 같은 인간 중심 작업에 특화된 파인튜닝을 수행합니다.

대규모 데이터셋을 사용한 사전 학습과 단순한 모델 구조 덕분에 다양한 상황에서도 높은 성능을 보입니다. 사용된 훈련 데이터셋에는 전신 키포인트(308개)가 포함되어 있는데 이 가운데 얼굴(243개), 손(40) 등은 다른 포즈 추정 데이터셋에 비해 좀 더 세분화되어 있다고 할 수 있습니다.

Sapiens의 특징은 다음과 같습니다.

고해상도(1K, 1024x1024) 추론을 네이티브로 지원하며, 인간 중심 작업에 뛰어난 성능을 발휘합니다.
3억 장의 인간 이미지를 기반으로 자가 지도 학습 방식을 통해 일반화 능력을 크게 향상시켰습니다.
사전 학습 후 각 작업에 맞게 간단한 파인튜닝을 통해 다양한 작업에 쉽게 적용할 수 있습니다.
대규모 매개변수(최대 20억 개)를 가진 모델로, 모델의 크기가 커질수록 성능이 향상됩니다. (더 많은 데이터 더 높은 성능!)

참고) 프로젝트, 논문, 코드, 데모, 소개글(LearnOpenCV)

'AI 기술' 카테고리의 다른 글

FiT3D : 3D 정보에 기반한 2D 모델 미세조정 기법 (0)	2024.09.30
MuCodec : 초저비트레이트에서 고품질 음악 복원을 위한 음악 코덱 (8)	2024.09.27
APGCC : 보조지점 안내 기반의 군중 카운팅 (2)	2024.09.24
Fish-Speech : 다국어를 지원하는 TTS 모델 (2)	2024.09.23
Seed-Music : 정교한 스타일 적용이 가능한 음악 생성 시스템 (0)	2024.09.21

'AI 기술' Related Articles

AI 탐구노트

Sapiens : 4가지 비전 작업을 지원하는 시각 모델 본문

Sapiens : 4가지 비전 작업을 지원하는 시각 모델

'AI 기술' 카테고리의 다른 글

티스토리툴바