일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 오블완
- 우분투
- AI 기술
- 딥러닝
- PYTHON
- 확산 모델
- LLM
- 트랜스포머
- 강화학습
- ChatGPT
- OpenAI
- 이미지 생성
- 일론 머스크
- 티스토리챌린지
- 자연어 처리
- tts
- 휴머노이드 로봇
- 강화 학습
- 실시간 렌더링
- 생성형AI
- 감정 표현
- 메타
- XAI
- 다국어 지원
- 인공지능
- Stable Diffusion
- 오픈소스
- AI
- 멀티모달
- 오픈AI
- Today
- Total
AI 탐구노트
SKYREELS-V2 : 무한 길이의 영상을 생성하는 AI 기술 본문
요즘 유튜브 쇼츠, 틱톡 영상, 넷플릭스의 자동 예고편 생성 등 다양한 산업에서 ‘영상 생성 AI’의 수요가 급격히 늘고 있습니다. 특히 영화나 광고, 게임 트레일러 제작과 같이 긴 시간 동안 정교한 장면을 생성해야 하는 분야에서는 ‘단순히 화질이 좋은 영상’이 아니라, 카메라 앵글, 인물 표정, 장면 전환까지 조율된 고품질 영상이 요구됩니다. 하지만 지금까지의 AI 영상 생성 기술은 5~10초 내외의 짧은 영상에 머무르며, 카메라 움직임이나 장면 구도에 대한 이해 부족, 시각적 일관성 문제 등 여러 한계에 부딪혀 왔습니다.
이러한 문제를 해결하기 위해 'SKYREELS-V2'라는 모델이 제안되었습니다. 이 모델은 단순한 영상 생성기가 아니라, 인간의 영화 언어, 즉 샷 구성, 인물 동작, 감정 표현, 카메라 움직임을 이해하고 표현할 수 있는 '영화 제작 보조 인공지능'이라 할 수 있습니다.
SKYREELS-V2는 기존의 딥러닝 방식에 강화학습과 구조적 비디오 캡셔닝, 새로운 확산 강제 학습 기법을 결합하여 사실적인 긴 영상 생성에 도전합니다.
SKYREELS-V2
1) 기존 방식의 문제점
기존의 영상 생성 AI는 대부분 확산 모델(Diffusion Model)이나 오토리그레시브 모델(Autoregressive Model)을 기반으로 합니다. 이 둘은 각각 다음과 같은 제약사항이 있었습니다.
- 확산 모델은 시각적으로 뛰어난 장면을 생성할 수 있지만, 시간 흐름(즉 움직임의 자연스러움)에서는 부족
- 오토리그레시브 모델은 시간적 연속성은 보장하지만, 장면 해상도가 떨어지거나 오류가 누적되는 문제
또한 대부분의 영상 AI는 단순한 텍스트 설명만을 기반으로 하기 때문에 영화 문법에 해당하는 '샷 타입, 앵글, 감정 표현, 카메라 움직임'과 같은 세부 요소를 잘 반영하지 못합니다. 결과적으로 생성된 영상은 일반적인 장면은 잘 따라가도, 전문적인 영화 스타일이나 내러티브가 필요한 콘텐츠에는 부족한 결과를 내게 됩니다.
2) 접근 방식
SKYREELS-V2는 단순한 텍스트 기반 생성기를 넘어, 멀티모달 대형 언어모델(MLLM), 구조화된 비디오 캡셔너(SkyCaptioner-V1), 강화학습(RL), 확산 강제 학습(Diffusion Forcing)이라는 네 가지 핵심 기술을 통합합니다.
먼저 다양한 영상을 분석해 영화적 요소(샷 구성, 인물 감정, 카메라 움직임 등)를 텍스트로 정확히 변환하는 모델을 학습시켰습니다. 이 과정을 통해 영상에서 어떤 장면인지, 어떤 감정이 표현되는지, 어떤 카메라 기법이 사용되었는지를 이해하게 됩니다. 이렇게 구조화된 텍스트를 학습 재료로 사용하여, 더 정교하고 일관성 있는 영상을 생성할 수 있습니다.
이후 학습된 모델에 대해 강화학습을 적용해 동작의 자연스러움과 움직임의 품질을 높이고, 마지막으로 확산 강제 학습 기법을 사용해 무한 길이 영상도 안정적으로 생성할 수 있도록 합니다.
3) 세부 적용 기술
1️⃣ 구조적 비디오 캡셔닝(SkyCaptioner-V1)
기존의 비디오 캡셔너는 단순히 '소녀가 춤을 춘다'와 같은 설명을 생성했지만, SKYREELS-V2는 더 구체적으로 '카메라는 정면에서 촬영, 소녀는 웃으며 춤추며 화면 중앙에 위치, 배경은 석양이 지는 도심' 같은 정보를 구조화된 텍스트로 생성합니다. 이를 위해 샷 타입 분류기, 감정 캡셔너, 카메라 움직임 추적기 등 서브 모델들을 함께 학습시켰습니다.
2️⃣ 멀티단계 사전학습(Multi-stage Pretraining)
해상도를 점진적으로 높이며 학습하는 방식으로, 처음엔 256p 저해상도로 기본 동작을 익히고, 이후 360p, 540p까지 고해상도 학습을 진행합니다. 이 과정을 통해 영상의 품질을 점차적으로 끌어올리며 안정적인 생성 능력을 확보합니다.
3️⃣ 강화학습을 통한 움직임 품질 향상(RL)
사람이 평가한 ‘좋은 움직임’과 ‘부자연스러운 움직임’의 예시 데이터를 활용해, AI가 어떤 동작이 더 현실적인지를 학습하게 합니다. 이를 통해 인물이 갑자기 텔레포트하거나, 물리 법칙을 무시하는 등의 문제가 줄어듭니다.
3️⃣ 확산 강제 학습(Diffusion Forcing)
기존 확산 모델은 고정 길이의 영상만 생성 가능했습니다. SKYREELS-V2는 각 프레임마다 서로 다른 노이즈 수준을 적용하는 방식으로, 앞 프레임의 정보를 활용해 무한히 새로운 프레임을 생성할 수 있는 모델로 진화시켰습니다. 이는 LLM의 '토큰 예측'과 비슷한 구조로, 영상에서도 다음 장면을 자연스럽게 예측하고 연결시킬 수 있게 합니다.
4) 제약사항
논문에서는 직접적인 제약사항은 많지 않으나, 고해상도 장기 영상 생성은 여전히 많은 컴퓨팅 자원과 시간이 필요합니다. 또한 '샷 타입'과 같은 영화 문법을 완벽하게 이해하는 데는 한계가 있으며, 일부 감정 표현이나 카메라 동작은 아직 부정확하게 해석될 수 있습니다.
SKYREELS-V2는 단순히 텍스트 기반 영상을 만드는 것을 넘어서, 영화 제작자의 시선으로 장면을 해석하고 구성하는 ‘영화 AI’로 진화한 모델입니다. 샷 구성, 감정 표현, 카메라 앵글 등 전문적인 요소들을 인공지능이 이해하고 생성할 수 있게 되면서, 향후 영화, 광고, 애니메이션 분야에서 실제 영상 제작을 보조하거나 대체할 수 있는 잠재력을 가집니다.
참고자료
- 논문) SKYREELS-V2: INFINITE-LENGTH FILM GENERATIVE MODEL (링크)
- 데모) SkyReels Playground (링크)
- 문서) SkyReels Tutorial (링크)
- 코드) SkyReels github 저장소 (링크)
Q&A
Q. SKYREELS-V2는 얼마나 긴 영상을 만들 수 있나요?
이론적으로는 ‘무한 길이’ 영상 생성이 가능합니다. 실제로 30초 이상 길이의 영상 샘플도 제공하고 있습니다.
Q. 기존 모델과 비교해 어떤 점이 가장 개선되었나요?
샷 구성, 감정 표현, 움직임 품질 등 영화적 표현력을 강화한 것이 가장 큰 차별점입니다.
Q. 생성된 영상은 실제 상업용으로 사용할 수 있나요?
720p 고화질 영상까지 생성 가능하며, 오픈소스로 공개된 만큼 상업적 응용도 가능합니다. 다만 품질 검증과 후처리는 필요합니다.
'AI 기술' 카테고리의 다른 글
생성형 AI가 일하는 방식 : 직업에 미치는 영향 분석 (1) | 2025.08.01 |
---|---|
AI 에이전트의 보안, 얼마나 안전한가? - 대규모 공개 대회로 본 현실적 위협 (4) | 2025.07.31 |
EarthCrafter : 지구 전체를 3D로 생성하는 인공지능 기술 (1) | 2025.07.29 |
PUSA : VTA 기법을 적용해 고성능 영상 생성 AI를 구현하는 기술 (3) | 2025.07.29 |
RF-DETR : Roboflow가 개발한 실시간 객체 감지 모델 (1) | 2025.07.28 |