AI 탐구노트

PanoHead : 고품질 3D 머리 이미지 생성 모델 본문

AI 기술

PanoHead : 고품질 3D 머리 이미지 생성 모델

42morrow 2024. 8. 31. 18:20
단일 뷰 얼굴 이미지에서 머리 전체의 3D 텍스처 모델을 생성하는 기술

 

PanoHead는 360° 모든 각도에서 일관된 고품질 3D 머리 이미지를 생성하는 최초의 3D GAN 모델입니다. 중국 바이트댄스와 위스콘신대 연구진이 공동으로 발표했죠. 

 

기존의 GAN 방식은 높은 품질의 이미지 합성이 가능했지만 2D에 국한되어 서로 다른 방향에서 보는 장면을 합성하는데는 일관성이 제대로 보장되기 어려운 문제가 있었습니다. 그리고, 3D 모델을 만들기 위해서는 3D 스캔이나 별도의 렌더링 기술 적용 등의 추가적인 작업들이 필요했고 새로 등장한 모델들 또한 주로 정면에 가까운 시점만 제대로 지원이 되는 제약이 있었습니다.

 

PanoHead는 이런 문제점들을 아래와 같은 기법을 이용해서 해결하고 있습니다. 

 

  • 트라이-그리드 볼륨 표현 (Tri-grid representation) : 기존의 트라이-플레인 방식을 확장하여 전면과 후면의 특징을 효과적으로 분리, 고해상도 3D 머리 이미지를 생성할 수 있게 했습니다.
  • 전경 인식 트라이-디스크리미네이터 (Fore-Background Decomposition) : 3D 전경 머리와 2D 배경의 분리를 학습하여 보다 일관된 3D 머리 이미지를 생성합니다.
  • 자가 적응 카메라 정렬 (Camera pose self-adaptation) : 다양한 각도에서의 이미지를 안정적으로 정렬하여 학습, 360° 일관된 결과를 보장합니다. 즉, 사진이 정면, 측면, 후면 어디서 찍혔든지 간에 모델이 이를 정확하게 이해하고 처리하도록 도와주는 역할을 하게 됩니다. 

 

전면 사진을 가지고 측면, 후면 등의 형상을 예측해서 높은 품질의 3D 모델을 바로 생성해 준다는 점이 특히 마음에 듭니다. 드디어 집에서 놀고 있는 3D 프린터를 활용해 볼 시점이 온 것 같네요. ^^

 

 

사진 : PanoHead가 적용된 예시

 

사진 : PanoHead 모델의 아키텍처

 

 

PanoHead의 전체 구조를 소개하는 그림(그림 2)이 포함되어 있습니다. 이 구조는 생성기(G), 디스크리미네이터(D), 그리고 신경 렌더러(R)의 세 가지 주요 구성되는데, 생성기는 트라이-그리드 특징을 추출하고, 신경 렌더러가 이를 사용해 고해상도 이미지를 생성하며, 디스크리미네이터는 생성된 이미지와 실제 이미지를 비교하여 학습합니다. 또한, 이미지 정렬 문제를 해결하기 위해 자가 적응 카메라 정렬 모듈이 사용됩니다.

 

 

참고) 논문소개글깃헙영상논문영상코드(코랩)