일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 뉴럴링크
- 트랜스포머
- 확산 모델
- 일론 머스크
- 서보모터
- TRANSFORMER
- 인공지능
- 오픈AI
- 티스토리챌린지
- tts
- 우분투
- AI
- 시간적 일관성
- 멀티모달
- ControlNet
- LLM
- OpenAI
- LORA
- 아두이노
- 딥러닝
- 생성형 AI
- 오블완
- 메타
- ubuntu
- AI 기술
- 휴머노이드 로봇
- PYTHON
- ChatGPT
- 딥마인드
- 가상환경
- Today
- Total
AI 탐구노트
ReCapture: 사용자 제공 비디오를 활용한 생성적 카메라 컨트롤 본문
1. 서론
디지털 콘텐츠 제작의 발전은 오늘날 영화, 광고, 게임 등 다양한 분야에서 영상의 중요성을 크게 증대시켰습니다. 특히, 카메라 움직임과 같은 요소는 시청자의 몰입도를 높이는 데 중요한 역할을 합니다. 그러나 기존의 영상 제작 방식에서는 사용자가 원하는 카메라 움직임을 자유롭게 구현하기 어려운 한계가 있습니다. 이를 극복하기 위해 생성적 인공지능 기술이 도입되면서 사용자의 요구에 맞춘 영상 편집이 가능해졌습니다.
최근에는 사용자 제공 영상에서 새로운 시각적 효과를 생성하는 연구가 주목받고 있습니다. 하지만, 이 과정에서 기존 영상에 없는 새로운 시점을 생성하는 일은 기술적 도전 과제를 안고 있습니다. 이러한 문제를 해결하기 위해, Google과 싱가포르국립대학교의 연구팀은 ReCapture라는 새로운 접근 방식을 제시했습니다. 이 기술은 사용자 제공 영상에 기초하여 새로운 카메라 궤적을 가진 영상을 생성합니다.
2. 본론
2.1 기존 방식의 문제점
기존의 영상 편집 기술은 여러가지 제약 사항으로 인해 사용자가 원하는 결과물을 얻기 어려웠는데 그 주요 문제점은 다음과 같습니다.
- 멀티뷰 데이터의 필요성
대부분의 기존 방법은 다중 카메라로 촬영된 동기화된 멀티뷰 데이터를 필요로 합니다. 이는 실제 촬영 현장에서 구현하기 어렵고, 비용 및 시간 면에서도 비효율적입니다. 예를 들어, 특정 장면을 다양한 시점에서 촬영해야 하는 경우, 카메라 설치와 동기화에 많은 자원이 소모됩니다. - 제한된 시야각
단일 카메라로 촬영된 영상은 특정 시점에서만 장면을 포착하므로, 다른 각도에서의 정보를 확보할 수 없습니다. 이러한 한계 때문에 새로운 시점의 영상을 생성하거나 복원하기 어렵습니다. 특히, 원본 영상의 시야에 포함되지 않은 영역은 기존 방법으로 처리하기 어렵습니다. - 깊이 및 카메라 포즈 추정의 부정확성
4D 재구성 기술은 단일 영상에서도 3D 정보를 추출할 수 있지만, 깊이 지도나 카메라 포즈를 정확하게 추정해야 하는데, 이는 복잡한 장면에서는 부정확한 결과를 초래할 수 있습니다. 부정확한 깊이 정보는 생성된 영상의 품질을 저하시킬 수 있습니다. - 시공간적 일관성 부족
기존 기술로 생성된 영상은 흔히 시간적 일관성이 부족하여 프레임 간 깜박임(flickering)이나 왜곡이 발생합니다. 이는 시청자에게 불편함을 주며, 영상의 품질을 떨어뜨리는 주요 원인 중 하나입니다.
2.2 접근 방식
2.2.1.모델 아키텍처
위의 그림은 ReCapture 기술의 전체 프로세스를 도식화한 것으로 2단계 접근 방식이 적용됩니다.
- 앵커 비디오 생성 (Anchor Video Generation)
첫 번째 단계는 사용자 제공 비디오와 새로운 카메라 궤적을 기반으로 불완전한 앵커 비디오를 생성하는 과정입니다.- 이 과정에서 입력 비디오의 각 프레임에 대해 새로운 시점에서의 프레임을 생성합니다.
- 이러한 프레임들은 일관성이 부족하고, 가끔 잘못된 시점 정보(예: 원본 비디오에 없는 영역의 검은 부분이나 아티팩트)가 포함됩니다.
- 이 단계는 ReCapture의 두 번째 단계에서 다듬어지기 위한 초안 역할을 합니다.
- 마스크 기반 비디오 파인튜닝 (Masked Video Fine-Tuning)
두 번째 단계는 첫 번째 단계에서 생성된 앵커 비디오를 보정하여 최종 결과물을 만드는 과정입니다.- 공간적 LoRA (Spatial LoRA)와 시간적 LoRA (Temporal LoRA)라는 두 가지 기법을 사용하여 영상을 개선합니다.
- 공간적 LoRA는 영상의 각 프레임이 원본 비디오와 같은 배경 및 구조적 맥락을 유지하도록 돕습니다.
- 시간적 LoRA는 프레임 간의 부드러운 연결을 보장하여 영상의 시간적 일관성을 강화합니다.
- 이 과정을 통해 앵커 비디오의 결함(예: 깜박임, 블러링, 잘못된 시점의 아티팩트)을 제거하고, 원활한 최종 비디오를 생성합니다.
- 공간적 LoRA (Spatial LoRA)와 시간적 LoRA (Temporal LoRA)라는 두 가지 기법을 사용하여 영상을 개선합니다.
2.2.2.세부 적용 기술
- 포인트 클라우드 렌더링
깊이 추정 알고리즘을 사용하여 영상의 각 프레임을 3D 포인트 클라우드로 변환합니다. 이후, 새로운 카메라 궤적을 시뮬레이션하여 이 포인트 클라우드를 기반으로 앵커 비디오를 생성합니다. - 멀티뷰 이미지 확산
멀티뷰 이미지 확산 모델을 활용하여 각 프레임에 대해 새로운 시점을 생성합니다. 이 방법은 큰 카메라 회전을 포함한 궤적에서도 유효합니다. - 마스크 기반 비디오 파인튜닝
마스킹 기법을 사용하여 앵커 비디오의 손상된 부분을 보완합니다. 공간 LoRA와 시간 LoRA를 통해 각각 영상의 배경 정보와 동작 패턴을 학습하여 일관된 영상을 만듭니다.
3. 결론
ReCapture는 사용자 제공 영상을 기반으로 새로운 카메라 궤적을 가진 영상을 생성하는 혁신적 기술로, 콘텐츠 제작에서 창의적 자유도를 크게 향상시킵니다. 기술의 이름처럼 말입니다. 에전에 Lytro ILLUM이라는 라이트 필드 기술을 이용한 카메라가 있었는데 살짝 그 개념과 비슷한 느낌을 갖게 됩니다. 이와 같은 새로운 AI 기술이 지속적으로 나오면 영상 컨텐츠 제작 산업은 어떤 변화를 겪게 될지 아직은 제대로 상상이 되지 않네요...
4. 참고자료
- 논문 : https://arxiv.org/pdf/2411.05003
- 프로젝트 사이트
5. Q&A
Q: ReCapture는 어떤 유형의 영상을 생성할 수 있나요?
ReCapture는 사용자 제공 영상의 복잡한 장면 동작을 유지하면서 새로운 카메라 궤적을 적용한 영상을 생성할 수 있습니다.
Q: 이 기술은 어떤 분야에서 활용될 수 있나요?
영화 제작, 광고, 게임 등의 디지털 콘텐츠 제작 분야에서 활용될 수 있습니다.
Q: ReCapture 기술의 주요 장점은 무엇인가요?
기존 영상에서 존재하지 않는 시점을 생성할 수 있으며, 시각적 일관성을 유지한 고품질 영상 제작이 가능합니다.
'AI 기술' 카테고리의 다른 글
MagicQuill: 직관적인 이미지 편집 시스템을 향한 진화 (0) | 2024.11.19 |
---|---|
ADD-IT: 사전학습된 확산 모델을 이용한 훈련 없는 객체 삽입 기술 (1) | 2024.11.18 |
TRIA : Masked Token Modeling을 활용한 Zero-shot 드럼 비트 변환 (1) | 2024.11.17 |
Moonshine : 실시간 음성 인식 모델의 새로운 접근 (3) | 2024.11.17 |
Fashion-VDM: 가상 착용 비디오를 위한 비디오 확산 모델 (0) | 2024.11.17 |