AI 탐구노트

Hunyuan3D 2.0 : 고해상도 3D 에셋 생성을 위한 확장형 확산 모델 본문

AI 기술

Hunyuan3D 2.0 : 고해상도 3D 에셋 생성을 위한 확장형 확산 모델

42morrow 2025. 1. 24. 12:58

 

1. 서론

디지털 3D 에셋은 게임, 영화, 물리 시뮬레이션, AI 연구 등 다양한 분야에서 중요한 역할을 합니다. 그러나 이 에셋을 제작하는 과정은 많은 시간과 비용이 소요되는 복잡한 작업으로, 스케치, 모델링, 텍스처 매핑 등 각 단계에서 높은 전문성이 요구됩니다. 이를 해결하기 위해 자동화된 3D 에셋 생성 기술이 주목받고 있으며, 특히 확산 모델 기반의 이미지와 비디오 생성 기술에서 발전을 이루면서 3D 생성 기술도 주목받고 있습니다.

 

이번에 Tencent가 공개한 Hunyuan3D 2.0은 이와 같은 배경에서 개발된 시스템으로, 텍스처 매핑과 3D 형태 생성의 어려움을 해결하기 위해 독창적인 접근 방식을 채택했습니다. 특히, 확장형 확산 모델을 기반으로 한 두 가지 주요 구성 요소인 Hunyuan3D-DiT(형태 생성 모델)과 Hunyuan3D-Paint(텍스처 생성 모델)를 도입하여 고해상도의 텍스처를 가진 3D 에셋 생성을 가능하게 했습니다.

 

그림 : Hunyuan3D 2.0 시스템 구성


2. 본론

2.1. 기존 방식의 문제점

기존의 3D 에셋 생성은 시간이 많이 들고 복잡합니다. 각 단계에서 전문적인 소프트웨어와 기술이 필요하며, 이미지 생성 기술이 발전한 것에 비해 3D 생성 기술은 더딘 진전을 보여 왔습니다. 특히, 기존 모델은 3D 형태와 텍스처의 결합 및 세부 묘사에서 한계를 보였습니다.

 

2.2. Hunyuan3D 2.0

 

Hunyuan3D 2.0은 크게 보면 다음의 두 가지 주요 구성 요소를 가지고 있습니다. 

  • 3D 형태 생성(Hunyuan3D-DiT) : 입력 이미지를 기반으로 고품질의 3D 메쉬를 생성합니다.
  • 텍스처 매핑(Hunyuan3D-Paint) : 생성된 메쉬에 고해상도의 텍스처를 매핑하여 생동감 있는 결과물을 제공합니다.

이 둘은 각각 기본적인 형태 생성과 메시 표면의 세부적인 부분을 생성하는 것을 각각 진행한다고 보면 될 것 같습니다. 

 

이 과정에서 Hunyuan3D는 형상 생성과 텍스처 생성을 분리하여 각각의 어려움을 독립적으로 해결합니다. 또한, 사용자 친화적인 제작 플랫폼인 Hunyuan3D-Studio를 제공하여 전문가와 초보자 모두 쉽게 활용할 수 있도록 했습니다. 

 

 

 

Hunyuan3D 2.0의 아키텍처는 다음과 같습니다. 먼저 형상을 생성하고 세부적인 텍스처를 적용해서 최종 3D 메쉬를 생성하는 과정을 설명하고 있습니다. 

그림 : Hunyuan3D 2.0 시스템 아키텍처

 

 


 

2.3. Hunyuan3D 2.0 세부 기술 

1) Hunyuan3D-DiT

  • 중요 샘플링 기법 : 메쉬의 가장자리와 모서리에서 세부 정보를 우선적으로 추출하여 복잡한 구조를 재현
  • ShapeVAE : 메쉬를 효율적으로 압축하는 변분 오토인코더
  • 확산 모델 : 이미지 조건을 기반으로 3D 형태를 생성하며, 세부적인 질감과 구조를 유지

2) Hunyuan3D-Paint

  • 멀티뷰 텍스처 생성 : 여러 시점에서 일관된 텍스처를 생성하여 고품질의 결과물 제공
  • 이미지 조명 보정 : 입력 이미지의 조명을 보정하여 조명 변화에 강한 텍스처 생성
  • 텍스처 베이킹 : 생성된 텍스처를 메쉬에 매핑하여 일관성을 유지

그림 : Hunyuan3D-Paint의 텍스처 생성 과정

 

3) Hunyuan3D-Studio

  • 스케치-투-3D : 간단한 스케치를 고품질의 3D 에셋으로 변환
  • 로우 폴리곤 스타일화 : 계산 비용을 줄이고 효율적인 3D 모델 제공
  • 3D 캐릭터 애니메이션 : 생성된 모델에 동작을 추가하여 애니메이션 제작 가능

3. 결론

Hunyuan3D 2.0은 기존 모델들이 가진 한계를 극복하며, 고해상도 3D 에셋 생성을 위한 새로운 기준을 제시하고 있습니다. 텍스처와 3D 메쉬를 분리해 처리함으로써 기존 모델 대비 더 뛰어난 품질과 디테일한 표현을 제공하며, 오픈소스로 공개되어 3D 생성 커뮤니티의 발전에도 도움을 줄 것입니다.

 

게다가 이 도구는 잘 활용하면 기존의 3D 모델 생성자들의 작업 시간을 획기적으로 줄여 줄 수 있는 도구로 활용할 수 있을 것으로 예상됩니다. 고해상도의 3D 에셋을 빠르게 생성하고 텍스처를 사실적으로 입히는 능력은 전문가의 영역이었는데 이 도구를 이용하게 되면 개발자, 디자이너는 다른 핵심 창작에 더 많은 시간을 할애할 수 있을테니까요. 게다가 소규모 팀이나 독립 개발자처럼 비용과 시간을 많이 쓸 수 없으면서도 고퀄리티의 3D 에셋이 필요한 경우에는 큰 도움이 될 수 있을 것 같습니다. 

 

추가로... 예전에 개봉했던 저품질 영상의 영화들을 리마스터링해서 재개봉하는 경우가 가끔 있는데, 이 기술도 잘 활용하면 오래 전 게임의 3D 모델들을 개선해서 게임을 다시 내놓거나 하는 것에도 활용할 수 있지 않을까 하는 생각도 해 보게 됩니다. 아나바다... 아껴쓰고 나눠쓰고 바꿔쓰고 다시쓰고... ^^;

 


4. 참고자료

  • Hunyuan3D 1.0 프로젝트 사이트 (링크)
  • 논문) Hunyuan3D 2.0: Scaling Diffusion Models for High Resolution Textured 3D Assets Generation (링크)
  • 코드) Hunyuan3D 2.0 (깃헙)

5. Q&A

Q. Hunyuan3D-DiT는 어떤 역할을 하나요?

Hunyuan3D-DiT는 입력 이미지를 기반으로 고해상도의 3D 메쉬를 생성하는 역할을 합니다. 

 

Q. 텍스처 생성은 어떻게 이루어지나요?

Hunyuan3D-Paint는 입력 이미지를 기반으로 여러 시점에서 일관된 고해상도 텍스처를 생성하여 메쉬에 매핑합니다.

 

Q. Hunyuan3D 2.0의 가능한 주요 활용 사례는 어떤 것이 있을까요?

게임, 애니메이션, 영화 제작, AI 연구 등에서 고품질 3D 에셋을 빠르게 생성할 수 있을 것으로 생각됩니다.