AI 탐구노트

MagicMan : 고품질의 인간 3D 재구성 모델 본문

AI 기술

MagicMan : 고품질의 인간 3D 재구성 모델

42morrow 2024. 8. 28. 09:59
고품질의 일관된 다중 뷰 이미지를 생성하여 인간 3D를 재구성할 수 있게 만드는 모델

 

MagicMan은 단일 이미지로부터 고품질의 일관된 다중 뷰 이미지를 생성하여 인간 3D 재구성을 가능하게 하는 모델입니다.

 

기존의 단일 이미지 기반 인간 3D 재구성 방법들은 부족한 훈련 데이터로 인한 일반화 능력의 약화와 3D 일관성 부족으로 인해 제한된 성능을 보입니다. 특히, 포즈 추정의 부정확성으로 인해 왜곡된 3D 재구성 결과가 발생합니다.

 

MagicMan은 사전 훈련된 2D 확산 모델(Stable Diffusion)과 3D 신체 모델(SMPL-X)을 결합하여 다중 뷰 일관성을 개선하고, 하이브리드 멀티뷰 어텐션 메커니즘과 기하학적 인식 듀얼 브랜치를 도입하여 다중 뷰 간의 정보 교환을 효율적으로 수행합니다. 또한, 반복적 정제 전략을 사용하여 SMPL-X의 포즈 정확도를 점진적으로 개선합니다.

 

본 모델은 다음과 같은 특징을 가지고 있습니다.

  • 하이브리드 멀티뷰 어텐션
    1D 어텐션과 3D 어텐션을 결합하여 다중 뷰 간의 정보 교환을 효율적으로 수행하고, 메모리 소모를 최소화하면서 일관된 다중 뷰 이미지를 생성합니다. 즉, 여러 각도에서 찍은 사진들이 서로 자연스럽게 연결되도록 하는 목적으로 사용된다고 보면 됩니다. 
  • 기하학적 인식 듀얼 브랜치
    RGB 이미지와 노말 맵을 동시에 생성하여 구조적 안정성과 기하학적 일관성을 향상시킵니다. 즉, 색상정보와 이미지 표면의 기하학적 정보 간의 보완을 통해 보다 자연스럽고 현실감 있는 이미지 생성을 할 수 있습니다. 
  • 반복적 정제 전략
    SMPL-X의 추정된 포즈를 점진적으로 개선하여 3D 재구성의 일관성을 높이고 왜곡 문제를 줄여 결과적으로 이미지와 3D 모델간의 불일치를 줄이고 왜곡없는 다중 뷰 이미지를 생성할 수 있게 합니다.

사진 : MagicMan의 파이프라인

 

위 MagicMan의 파이프라인 그림에서는, 단일 인간 이미지를 입력으로 받아서 고품질의 일관된 다중 뷰 이미지를 생성하는 과정을 설명하고 있는데 여기서는 하이브리드 1D-3D 어텐션 메커니즘과 기하학적 인식 듀얼 브랜치, 반복적 정제 전략이 각각 어떻게 작동하는지를 시각적으로 설명하고 있습니다.

 

참고) 프로젝트, 논문, 모델카드(허깅페이스)