AI 탐구노트

TGH : 긴 볼류메트릭 비디오를 효율적으로 표현하는 시간적 가우시안 계층 구조 본문

AI 기술

TGH : 긴 볼류메트릭 비디오를 효율적으로 표현하는 시간적 가우시안 계층 구조

42morrow 2024. 12. 16. 10:50

 

 

1. 서론

우리가 흔히 보는 영화나 게임에서는 멋진 3D 그래픽과 애니메이션이 사용됩니다. 이 중, 볼류메트릭 비디오(Volumetric Video)라는 기술은 사람이나 사물을 여러 카메라로 촬영한 후, 이를 3D로 재구성해 사용자가 자유롭게 시점을 바꿀 수 있게 합니다. 예를 들어, 게임 캐릭터가 춤을 출 때, 옆에서 보다가 뒤에서 볼 수도 있는 기술입니다. 이 기술은 가상현실(VR), 증강현실(AR)이나 실시간 화상회의에서 매우 유용합니다.

 

그런데, 이 기술에는 몇 가지 제약사항이 존재합니다. 예를 들어 긴 영상(예: 5분 이상)을 만들려고 하면, 컴퓨터가 처리해야 할 데이터가 너무 많아서 그래픽카드(GPU)가 감당하기 어렵고, 파일도 너무 커져 저장하기도 힘듭니다. 게다가 영상이 길어질수록 처리 속도가 느려져 실시간으로 보거나 편집하기 어렵습니다. 게다가 이를 처리하기 위해 값비싼 전문 하드웨어와 복잡한 환경이 필요해 결과적으로 많은 비용이 듭니다. 

 

최근 연구에서는 뉴럴 렌더링 기반 기술을 통해 동적 장면을 표현하고자 하지만, 대부분의 방법은 짧은 영상 클립(1~2초)에 국한되거나, 저장 공간과 연산 요구량이 과도하게 증가하여 실제 사용이 어렵습니다.

 

이를 해결하기 위해 논문에서는 '시간적 가우시안 계층 구조(Temporal Gaussian Hierarchy)'라는 새로운 4D 표현 방식을 제안합니다. 이 방법은 비디오 데이터를 '중요한 것만 골라서' 효율적으로 처리하고, 저장 공간을 줄이며 빠른 렌더링(그림으로 표현하는 것)을 가능하게 만듭니다. 

 


2. 본론

2.1 기존 방식의 문제점

기존 볼류메트릭 비디오 표현 방식은 다음과 같은 한계가 있습니다:

  • 짧은 영상만 처리 가능 : 보통 1~2초 길이의 짧은 영상만 처리할 수 있으며 그 이상 길어지면 GPU 메모리 부족 등으로 멈추거나 속도가 매우 느려집니다. 
  • 저장 공간 문제 : 동적 장면의 복잡성을 표현하기 위해 대규모 데이터 모델이 필요하며, 이는 실제 저장 공간을 비효율적으로 사용하게 됩니다. 그리고, 긴 영상을 처리하는데 많은 데이터 저장이 필요하게 되는데 파일 크기가 수십~수백GB에 이를 수 있습니다. 
  • 느린 렌더링 속도 : 한 장면을 처리하는데 몇 초~몇 분이 걸리는 경우도 있어 고해상도와 실시간 렌더링을 동시에 만족시키기 어려운 경우가 많습니다.

2.2 접근 방식

논문에서 제안한 시간적 가우시안 계층 구조(TGH)는 데이터를 '효율적으로 정리하고 필요한 것만 빠르게 찾는 방법'이라고 이해할 수 있습니다. 예를 들어 긴 책을 읽을 때 전체 페이지를 다 읽지 않고 목차를 통해 원하는 부분만 찾아가는 것과 비슷하다고 할 수 있습니다. 이 기술은 다음과 같은 핵심적인 특징을 가집니다. 

  • 다중 수준의 계층 구조 : 동적 장면의 일부 영역은 천천히 변화하고, 다른 영역은 빠르게 변화하는 속성이 있는데, 영상 데이터를 움직임이 적은 부분(배경)과 움직임이 많은 부분(예:춤추는 사람)으로 분리해서 움직임이 적은 배경은 크게 하나로 묶고, 빠르게 변화하는 부분만 세밀하게 분석하도록 설계합니다. 
  • 4D 가우시안 표현: 가우시안 원소를 활용해 장면의 움직임과 변화를 압축적으로 모델링합니다. 
  • 시간을 잘게 나눔 : 긴 영상을 작은 시간 단위로 쪼갠 뒤, 각 시간 구간별로 변화하는 데이터를 저장합니다. 이렇게 하면 메모리 사용량이 줄어듭니다.

그림 : 프레임워크 개요

 

2.3 세부 적용 기술

  • 시간적 가우시안 계층 (TGH)
    • 시간 축을 따라 각기 다른 시간 간격의 계층으로 분리. 상위 계층은 장시간 동안 변하지 않는 정적 장면을, 하위 계층은 빠르게 변화하는 영역을 표현합니다. 
    • 이 계층 구조는 영상을 '변화하는 속도'에 따라 여러 레벨로 나누는 방식입니다. 예를 들어 레벨1(거의 변하지 않는 정적부분, 예: 배경), 레벨2(약간 변하는 부분, 예: 테이블 위의 움직이지 않는 물건), 레벨3(빠르게 변하는 부분, 예: 춤추는 사람의 몸 부분) 등과 같이 말입니다. 
    • 이를 통해 GPU 메모리 사용량을 시간에 무관하게 일정하게 유지할 수 있습니다. 
  • 확산성, 시점 의존성을 고려한 하이브리드 모델링 & 압축된 저장 방식
    • 영상 속의 빛의 특성과 관찰하는 각도에 따라 변하는 시각적 효과를 모두 표현하는 방법으로 모델링합니다.
    • 저장 공간을 절약하기 위해, 장면의 밝기나 색깔 같은 세부 정보를 '가장 필요한 것'만 저장하도록 합니다.  (중요한 부분은 정밀하게, 단순한 부분은 효율적으로)
      예를 들어 확산성만 있는 흰색 종이같은 데이터는 단순히 '흰색'으로 저장하여 단순 계산 처리하고, 반짝이는 크리스탈 등은 빛의 각도와 관찰 위치에 따라 달라지므로 빛의 방향, 각도를 고려한 계산을 수행하는 방식입니다. 
    • Spherical Harmonics(구형 조화함수)를 활용해 저장 공간을 효율적으로 줄이면서도 렌더링 품질 유지할 수 있습니다. 
  • 하드웨어 가속 기반 렌더링
    • 기존 소프트웨어 렌더링을 대체하는 GPU 기반 레스터화 알고리즘을 개발해 렌더링 속도를 최대 5배 개선합니다. 

그림 : Temporal Gaussian Hierachy 의 적용 효과에 대한 비교

 

2.4 제약사항

  • 동적 객체의 복잡성 : 매우 빠르게 움직이는 객체나 급격한 변화가 있는 장면에서는 표현력이 제한될 수 있습니다. 
  • 하드웨어 의존성 : 최신 GPU와 같은 고성능 하드웨어가 필요합니다.

3. 결론

시간적 가우시안 계층 구조는 데이터를 효율적으로 정리하고 처리 속도를 높이는 방법입니다. 이는 기존 방식 대비 VRAM, 저장 공간, 훈련 시간 측면에서 획기적인 절감을 이루는 동시에, 고품질의 실시간 렌더링을 가능하게 합니다. 앞으로 더 복잡한 동적 장면을 다룰 수 있도록 기술을 개선한다면 AR/VR, 영화 제작 등 실생활에서의 활용도가 크게 증가할 것으로 기대됩니다. 

 

저는 특히나 실시간 영상 처리가 가능하다는 것이 제일 마음에 들었습니다. 앞서 활용처로 AR/VR 등을 얘기했는데, 우리가 가장 쉽게 접할 수 있는 가까운 응용 사례는 스포츠 경기의 하이라이트 장면 처리가 될 수도 있습니다. 예를 들어 LGU+에서 수년전 내놨던 '유플러스 프로야구 앱' 서비스가 있었는데 그 가운데는 홈에서의 장면들(예: 홈런, 홈베이스 스틸 등등)을 3D로 볼 수 있는 기능이 있었습니다. 당시에는 경기장에 설치된 60대의 카메라를 이용하는 방식이라 복잡하고 비용이 많이 들었을테지만 경기를 관람하고자 하는 야구팬들에게는 획기적인 서비스이기도 했습니다. 이제는 이런 것들이 완벽하지는 않지만 훨씬 더 적은 비용으로 서비스를 할 수 있게 된다는 것이겠죠.  비단 스포츠 경기 뿐만 아니라 적용할 수 있는 곳이 무궁무진할 것 같지 않으신가요?

 

 

영상 : 유플러스 프로야구를 이용한 3D 장면 보기 예시

 

 


4. 참고자료

  • 논문 제목: Representing Long Volumetric Video with Temporal Gaussian Hierarchy (링크)
 

Representing Long Volumetric Video with Temporal Gaussian Hierarchy | ACM Transactions on Graphics

This paper aims to address the challenge of reconstructing long volumetric videos from multi-view RGB videos. Recent dynamic view synthesis methods leverage powerful 4D representations, like feature grids or point cloud sequences, to achieve high-quality .

dl.acm.org

  • 프로젝트

 

 

Long Volumetric Video

Abstract This paper aims to address the challenge of reconstructing long volumetric videos from multi-view RGB videos. Recent dynamic view synthesis methods leverage powerful 4D representations, like feature grids or point cloud sequences, to achieve high-

zju3dv.github.io

  • 소개영상 (유튜브)

 

 

 

 


5. Q&A

Q.시간적 가우시안 계층 구조의 가장 큰 장점은 무엇인가요?

기존 기술은 긴 영상을 처리하지 못했지만, 이 기술은 GPU 메모리 사용량을 일정하게 유지하여 긴 시간의 비디오도 작게 나눠서 효율적으로 처리할 수 있습니다.

 

Q.이 기술은 어떤 응용 분야에서 유용하게 사용될 수 있나요?

AR/VR 콘텐츠 제작, 실시간 게임 그래픽, 원격 협업을 위한 텔레프레즌스에서 실시간 3D 장면 재현 등에서 활용될 수 있습니다. 

 

Q.기술의 한계를 극복하기 위해 어떤 추가 연구가 필요한가요?

빠른 움직임이나 급격한 장면 변화에 대한 표현력을 강화하기 위한 알고리즘 개발이 필요합니다.