AI 탐구노트

CGS-GAN : 시점 변화에도 일관성 있는 3D 인간 머리를 생성하는 GAN 프레임워크 본문

AI 기술

CGS-GAN : 시점 변화에도 일관성 있는 3D 인간 머리를 생성하는 GAN 프레임워크

42morrow 2025. 5. 31. 12:19

 

최근 인공지능 기술의 급격한 발전은 단순한 이미지 생성에서 나아가 3차원 공간에서의 사실적인 객체 생성까지 가능하게 만들었습니다. 특히 영화, 게임, 메타버스 등 다양한 분야에서는 고품질의 3D 인간 모델링 수요가 증가하고 있습니다. 이러한 배경 속에서 기존의 복잡한 3D 스캔 작업 없이, 2D 이미지에서 사실적인 3D 머리를 생성하는 GAN 기술이 다시금 주목받고 있습니다. 확산 기반 기술의 대두로 한동안 수면 아래로 사라졌던 GAN 기술이 말입니다!

 

하지만 기존의 GAN 기술은 고품질 렌더링을 위해 시점 정보를 학습에 포함시켰고, 이로 인해 한 시점에서 높은 품질을 얻을 수는 있지만, 다른 시점에서는 인물의 정체성이 바뀌는 문제가 발생했습니다. 이를 해결하기 위한 새로운 시도로, 시점 정보 없이도 3D 일관성을 유지하면서 고해상도의 사실적인 인간 머리를 생성하는 새로운 GAN 프레임워크CGS-GAN이 소개되었습니다. 

 

그림 : CGS-GAN 결과 예시 - 시점과 무관하게 일관성 있는 얼굴 이미지를 생성

 


 

CGS-GAN

1) 기존 방식의 문제점

 

기존 3D GAN들은 일반적으로 '시점 정보'를 생성 과정에 포함시켜, 학습 중인 카메라 각도에 따라 출력을 조정했습니다. 이는 하나의 시점에서 좋은 결과를 얻을 수 있으나, 카메라 각도를 바꾸면 인물의 얼굴이 달라 보이는 등 3D 일관성이 무너지는 문제가 있었습니다. 또한 GAN의 학습 안정성 확보를 위해 이러한 시점 의존을 도입했지만, 결과적으로 진정한 의미의 3D 모델 생성을 어렵게 만들었습니다.

 

2) 접근 방식

 

CGS-GAN은 시점 정보를 제거하면서도 안정적으로 학습할 수 있는 새로운 GAN 구조입니다. 이를 위해 다음과 같은 방법을 사용합니다:

  • 다중 시점 정규화(Multi-view regularization) : 하나의 3D 머리를 다양한 각도에서 렌더링하여 학습하는 방식으로, 시점에 관계없이 일관된 3D 형태를 유지하도록 합니다.
  • 효율적인 생성기 구조 : GPU 메모리 사용을 최소화하면서도 고해상도 출력을 가능하게 하는 생성기 구조를 설계하였습니다.

이러한 접근은 3D 일관성을 유지하면서도 빠르고 효율적인 학습을 가능하게 합니다.

 

그림 : CGS-GAN 프레임워크 구조도

 

위의 그림은 CGS-GAN의 프레임워크 구조를 보여주고 있는데, 왼쪽은 GSGAN 기반의 생성기를 사용하고 시점 정보를 사용하지 않는 구조이며, 오른쪽은 학습 중 다양한 각도에서 3D 머리를 렌더링해 정규화하고 랜덤 배경을 넣어 구멍 현상(artifact)를 방지합니다. 

 

3) 세부 적용 기술

  • 3D Gaussian Splatting (3DGS)
    이 기술은 3D 공간에서 작은 입자(가우시안)를 배치하여 장면을 구성하는 방법입니다. NeRF보다 빠르고 명시적인 3D 모델을 생성할 수 있어, 게임 엔진 등에서 바로 사용할 수 있습니다.
  • 적응형 트랜스포머 생성기 구조
    기존의 GAN 구조(GSGAN)를 바탕으로, 포인트 클라우드에 스타일을 적용하고 계층적으로 가우시안 요소를 생성합니다. 각 층은 Self-Attention과 AdaIN 레이어를 포함하며, 세밀한 3D 구조 생성을 가능하게 합니다.
  • 다중 시점 정규화
    학습 시 각 머리를 다양한 각도에서 렌더링하고, 이 결과의 평균을 이용하여 모델을 업데이트합니다. 이를 통해 특정 시점에만 최적화되는 것을 방지하고 전체적인 3D 일관성을 유지합니다.
  • 랜덤 배경 합성
    고정된 흰색 배경 대신 다양한 색상의 배경을 무작위로 사용하여, 모델이 배경색에 의존하지 않고 얼굴 자체의 색상을 정확히 생성하도록 유도합니다.
  • FFHQ-Clean 데이터셋
    손, 마이크 등 얼굴을 가리는 요소가 포함된 이미지를 제거한 새로운 데이터셋으로, 학습 품질을 향상시키는 데 기여합니다. 웃는 얼굴의 과도한 비율도 재조정하였습니다.

그림 : 데이터셋 전처리 파이프라인

 

 

4) 제약사항

 

CGS-GAN은 높은 품질을 달성했지만, 현재는 머리의 앞부분 중심으로 학습되어 뒤통수 등 완전한 360도 생성을 위해서는 추가적인 데이터가 필요합니다. 또한 학습 안정성을 위한 다중 시점 정규화는 렌더링 비용이 약간 증가할 수 있습니다.


 

CGS-GAN은 기존 GAN의 시점 의존 문제를 해결하고, 어떤 시점에서도 동일한 인물로 보이는 3D 머리를 고해상도로 생성할 수 있는 혁신적인 기술입니다. 이러한 모델은 게임, 영화, 메타버스 아바타, VR/AR 콘텐츠 제작 등 다양한 산업에서 적용 가능성이 큽니다. 향후에는 머리 뒷부분을 포함한 완전한 3D 생성을 위해 데이터셋을 확장하고, 모델의 학습 속도와 효율성을 더욱 개선하는 방향으로 연구가 진행될 수 있을 것으로 기대됩니다.


 

참고자료

  • 사이트) CGS-GAN 프로젝트 (링크)
  • 논문) CGS-GAN: 3D Consistent Gaussian Splatting GANs for High Resolution Human Head Synthesis (링크)
  • 코드) CGS-GAN Github 저장소 (링크)

 


Q&A

 

Q. 왜 기존 GAN은 시점에 따라 얼굴이 달라 보였나요?

기존 GAN은 카메라 정보를 입력으로 사용해 시점에 따라 이미지를 다르게 생성하기 때문입니다. 이로 인해 각도에 따라 인물의 정체성이 달라지는 문제가 생깁니다.

 

Q. CGS-GAN은 어떻게 시점 정보를 제거하고도 학습이 가능한가요?

다중 시점에서 렌더링하여 평균을 계산하는 방식으로 학습 안정성을 확보하고, 시점에 상관없이 일관된 출력을 가능하게 합니다.

 

Q. CGS-GAN의 주요 활용 분야는 어디인가요?

VR/AR 콘텐츠 제작, 메타버스 아바타 생성, 게임 캐릭터 생성, 영화 CG 등에서 활용될 수 있습니다.