AI 탐구노트

VGGHeads 본문

AI 기술

VGGHeads

42morrow 2024. 8. 12. 23:03

VGGHeads는 3D 인간 머리 감지 및 메시 추정을 위한 대규모 합성 데이터셋과 이를 활용한 새로운 모델입니다. 기존 데이터셋은 편향, 개인 정보 보호 및 윤리적 문제로 인해 사용이 제한되고 대부분 데이터 수집 자체가 배우나 특별한 실험실 환경에서 만들어지는 경우가 많아 모델의 일반화가 어렵다는 문제가 있었습니다. VGGHeads는 이런 문제를 대규모 합성 데이터셋을 사용하고 다양한 장면과 포즈에서 적용할 수 있도록 새로운 모델 아키텍처를 도입함으로써 해결하고 있습니다. 

 

VGGHeads 모델의 특징으로는 다음과 같은 것이 있습니다.

  • 대규모 합성 데이터셋 사용
    3D 인간 머리 감지 및 메시 추정을 위해 100만 개 이상의 이미지로 구성된 대규모 합성 데이터셋을 사용했습니다. 
    이 데이터셋은 라틴 확산 모델을 사용하여 생성되며, 다양한 장면에서의 3D 머리 메시와 얼굴 랜드마크를 포함하고 있습니다. 
  • 단일 단계의 다중 머리 감지 및 복원
    단일 이미지에서 사진 상의 다수의 인물의 얼굴들을 동시에 감지하고 3D 메시를 복원할 수 있는 모델 아키텍처를 도입했습니다. 
  • 다양한 장면에 대한 일반화 가능성
    다양한 포즈와 장면을 모델링할 수 있어, 실제 이미지에 대한 강력한 일반화 성능을 제공합니다. 
  • FLAME 모델 사용
    FLAME 모델을 사용하여 3D 머리 메시를 표현하며, 이는 5023개의 정점으로 구성되어 있어 다양한 작업에 기초 표현으로 사용될 수 있고  또한 전체 머리 모양, 표정, 포즈를 포함한 종합적인 3D 표현을 제공합니다
  • 안전 및 개인 정보 보호
    합성된 데이터셋을 사용하여, 개인정보 보호, 윤리적 문제를 피할 수 있고 민감한 콘텐츠를 포함할 가능성을 최소화합니다.

 

참고) 프로젝트, 논문, 코드, 데모

 

VGGHeads 모델 아키텍처

 

 

'AI 기술' 카테고리의 다른 글

LivePortrait : 정적인 얼굴 이미지를 움직임을 부여하는 기술  (0) 2024.08.13
Mobile-Agent-V2  (0) 2024.08.13
CLASI  (0) 2024.08.09
SF3D  (0) 2024.08.08
TAPTR  (0) 2024.08.08