일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- AI 기술
- 확산 모델
- AI
- PYTHON
- 강화 학습
- 메타
- 멀티모달
- 인공지능
- 트랜스포머
- 실시간 렌더링
- XAI
- 일론 머스크
- 우분투
- 시간적 일관성
- OpenCV
- 딥러닝
- 휴머노이드 로봇
- 티스토리챌린지
- OpenAI
- 자연어 처리
- ChatGPT
- ai 챗봇
- LLM
- 오픈소스
- LORA
- 다국어 지원
- 생성형AI
- tts
- 오픈AI
- 오블완
- Today
- Total
AI 탐구노트
GIFStream : 시간에 따라 진화하는 입체 영상 압축 기술 본문
사람들은 이제 단순한 영상보다는 몰입감을 제공하는 새로운 형태의 콘텐츠를 원하고 있습니다. 특히 가상현실(VR)이나 증강현실(AR) 같은 6자유도(6-DoF) 환경에서 영상 기술은 더욱 진화하고 있습니다. 이러한 환경에서 사용자는 자유롭게 고개를 돌리거나 위치를 이동하면서도 자연스러운 시야를 경험할 수 있어야 하며, 이는 영상 데이터를 훨씬 더 정밀하고 입체적으로 처리해야 가능해집니다. 바로 이런 이유로 ‘몰입형 영상(Immersive Video)’ 기술이 주목받고 있으며, 이를 구현하기 위한 핵심 기술로 4차원 가우시안 스플래팅(4D Gaussian Splatting) 이 대두되고 있습니다.
최근에는 이러한 기술들이 뛰어난 품질의 렌더링을 가능하게 했지만, 한 가지 큰 문제가 남아 있습니다. 바로 데이터의 저장 용량과 처리 속도입니다. 고품질의 동적 3D 영상을 저장하고 실시간으로 재생하기 위해서는 기존보다 훨씬 효율적인 데이터 표현 및 압축 방식이 필요합니다. 이러한 문제를 해결하기 위해 제안된 것이 GIFStream이라는 기술입니다.
GIFStream
1) 기존 방식의 문제점
기존에는 주로 두 가지 방식이 사용되었습니다.
첫째는 변형 필드(deformation field)를 사용해 고정된 3D 공간에서 시간에 따른 변화를 표현하는 방식이었습니다. 이 방식은 메모리 효율은 좋지만, 매우 빠르게 변화하는 동작(예: 스포츠나 춤)의 세세한 움직임을 제대로 표현하지 못하는 한계가 있었습니다.
둘째는 4D 가우시안(4D Gaussian) 자체를 사용해 시간과 공간을 함께 표현하는 방식입니다. 이 방식은 정밀도는 높지만, 저장해야 할 정보가 많아져 용량과 연산 부담이 큽니다. 또한 프레임 간 연속성이 떨어져 압축에도 불리한 단점이 있습니다.
2) 접근 방식
GIFStream은 위 두 방식의 장점을 결합하면서 단점을 보완한 새로운 접근을 제시합니다. 이 기술은 기본 3D 공간(canonical space) 위에 시간에 따라 변화하는 특징 스트림(time-dependent feature stream)을 추가하여, 복잡한 동작을 정밀하게 표현하면서도 저장 용량을 최소화할 수 있도록 설계되었습니다.
이를 위해 GIFStream은 시간에 무관한 정보와 시간에 따라 달라지는 정보를 분리해 저장하고, 움직임이 없는 영역은 자동으로 제거하여 데이터 양을 줄이는 방식도 함께 적용합니다. 또한, 학습과정에서부터 압축을 고려한 양자화 인식 학습(quantization-aware training)과 엔트로피 예측 모델을 함께 학습하여, 압축 효율을 극대화합니다.
3) 세부 적용 기술
1️⃣ 시간 의존적 특징 스트림 (Time-Dependent Feature Stream)
각 고정된 공간 지점(anchor)에 시간에 따라 달라지는 특징 벡터(ft)를 추가하여, 동적인 장면을 보다 정밀하게 표현할 수 있도록 설계되었습니다. 정적인 영역은 자동으로 제거하여 메모리 절약 효과도 얻습니다. 얼굴의 기본형(변화 없음)과 표정(감정 변화나 움직임에 따라 시시각각 변화)를 생각하시면 될 것 같습니다.
2️⃣ KNN 기반 움직임 예측 (K-Nearest Neighbor Aggregation)
특정 지점의 움직임을 예측할 때, 주변의 특징 정보를 함께 고려하도록 합니다. 주변(anchor)에서 가장 가까운 k개의 이웃(anchor)들을 선택해 특징을 평균 내고 이를 바탕으로 움직임을 예측하는 것이죠. 이렇게 함으로써 부드러운 움직임을 학습하도록 돕고, 급격한 움직임도 정밀하게 표현할 수 있게 해줍니다.
- 가우시안 속성 예측 (Gaussian Attribute Prediction Head) : anchor에서 가져온 시간 독립적/의존적 특징을 바탕으로 MLP라는 작은 신경망을 통해 속성 (투명도, 크기, 회전, 색상 등)을 계산합니다.
- 가우시안 움직임 예측 (Gaussian Motion Prediction Head) : 각 가우시안이 시간에 따라 어디로 움직일지 (회전, 이동)를 예측합니다.
4️⃣ 정렬 기반 2D 재구성 (Sorting-based 2D Reorganization)
차원+시간 정보를 가진 복잡한 데이터를 비디오처럼 2차원 이미지로 바꿔서 저장함으로써, 기존의 비디오 압축기술(예:HEVC)을 사용할 수 있도록 합니다.
5️⃣ 양자화 인식 학습 (Quantization-Aware Training)
압축 단계에서 발생할 수 있는 정보 손실을 미리 고려해 학습을 진행합니다. 품질 저하를 막으면서 압축 효율을 높일 수 있습니다.
6️⃣ 이중 비디오 압축 구조 (Dual Video Compression)
시간 독립 정보와 시간 의존 정보를 각각 비디오 형식으로 구성해, 기존의 비디오 압축 코덱(HEVC 등)과 호환되도록 설계되었습니다. 이는 하드웨어 가속을 통한 실시간 렌더링을 가능하게 합니다.
7️⃣ 엔트로피 기반 압축 최적화 (Entropy Regularization)
시간 흐름을 따르는 프레임 간의 확률 분포를 예측하여, 압축 효율을 높이는 정교한 학습 전략을 사용합니다.
8️⃣ 렌더링과 압축의 통합 학습 (End-to-End Compression)
영상 품질과 압축 효율을 동시에 최적화하기 위한 통합 손실 함수로 학습합니다. 실시간 디코딩이 가능하도록 설계된 것도 큰 장점입니다.
4) 특징
- 정규 공간(canonical space)과 시간 의존적 특징 스트림(feature stream)을 결합한 변형 필드(deformation field)를 사용하여 복잡한 동적 장면을 모델링
- 시간 의존적 특징 스트림은 동작에 적응적으로 학습되며, 정적인 영역에서는 효율적으로 Pruning되어 저장 공간을 절약함
- NVIDIA RTX 4090 GPU에서 실시간 렌더링과 빠른 디코딩을 지원하는 성능 제공
- 기존 프레임 별 Scaffold-GS와 비교해 약 1/200의 저장 공간으로 유사한 품질을 달성하며, 깜빡임(flickering) 아티팩트를 제거
5) 제약사항
- 정적인 배경과 같은 프레임 간 반복 정보의 경우, GOP 간 경계에서 일관성을 유지하기 어려운 문제가 일부 존재합니다. 신경망 기반 구조이기 때문에, 모바일 기기에서는 연산 부담이 다소 클 수 있습니다.
GIFStream은 몰입형 영상 콘텐츠의 핵심 요구인 고화질, 저용량, 실시간 렌더링을 동시에 만족시키는 기술입니다. 기존 4D 영상 표현 방식의 단점을 극복하고, 실용적인 영상 압축 및 표현 방식을 제시하고 있습니다. 공개된 내용에 따르면 가정용 PC에서도 고품질의 몰입형 영상을 생성할 수 있다는 하니 개인적으로도 써먹을 곳이 생길 수도 있겠습니다. 아쉽게도 아직 코드가 없어서 시도는 다음에...
향후 이런 기술들이 광범위하게 활용되면, 영상 시청의 방식 자체가 바뀔 수도 있겠다 싶습니다. 특히 가상현실(VR), 스포츠 중계, 게임 등 다양한 분야 등 사람들이 가장 많이 활용하면서도 많은 자본이 투입되는 산업 분야에서 말이죠. 코드가 공개되면 사양은 좀 못 미치지만 제 컴퓨터에서도 한번 돌려봤으면 좋겠다 싶습니다.
참고자료
- 논문) GIFStream: 4D Gaussian-based Immersive Video with Feature Stream (링크)
- 사이트) GIFStream 프로젝트 (링크)
- 아직 코드는 공개되지 않았습니다. (공개 예정)
Q&A
Q. GIFStream이 기존 기술보다 어떤 점에서 우수한가요?
기존 기술은 빠르게 움직이는 장면에서 표현력과 압축 효율이 떨어지는 반면, GIFStream은 시간에 따라 변화하는 특징 스트림을 도입해 이러한 장면도 효과적으로 표현하고 압축할 수 있습니다.
Q. GIFStream은 어디에 활용될 수 있나요?
VR 콘텐츠, 스포츠 중계, 몰입형 게임, 원격 협업 환경 등 실시간 3D 시점 변화가 중요한 모든 분야에 활용될 수 있습니다.
Q. 왜 비디오 형식으로 재구성해서 압축하나요?
기존 비디오 코덱을 활용하면 하드웨어 가속을 통해 압축과 디코딩 속도를 크게 높일 수 있어 실시간 렌더링이 가능해지기 때문입니다.
'AI 기술' 카테고리의 다른 글
MTVCrafter : 4D 모션 토큰을 활용한 오픈월드 인간 이미지 애니메이션 기술 (0) | 2025.05.21 |
---|---|
AI가 발견한 더 빠른 행렬과 전치행렬 간 곱셈 알고리즘 : RXTX (0) | 2025.05.18 |
FramePack : 긴 비디오 생성을 위한 입력 프레임 압축 기법 (0) | 2025.05.15 |
Parakeet TDT 0.6B : NVIDIA, 영문 지원 잘하는 오픈소스 ASR 모델 공개 (0) | 2025.05.11 |
자신만의 폰트 제작 - 1) 폰트 제작 과정과 필요성 (0) | 2025.05.09 |