AI 탐구노트

StreamingT2V : 일관되고 역동적인 긴 영상 생성 기법 본문

AI 기술

StreamingT2V : 일관되고 역동적인 긴 영상 생성 기법

42morrow 2024. 9. 2. 20:13
일관되고 역동적인 긴 영상을 생성하는 기법

 

StreamingT2V는 텍스트로부터 일관되고 역동적인 장시간 영상을 생성하는 새로운 기법입니다. 

 

기존 텍스트-영상 변환 모델은 주로 짧은 길이의 고품질 비디오(보통 16~24 프레임) 생성에 집중되어 있으며, 이를 단순하게 확장하여 긴 비디오를 생성하면 장면 전환의 불일치와 영상 품질 저하가 발생합니다.


StreamingT2V는 자동회귀(autoregressive) 방식을 사용하여 텍스트 기반으로 긴 영상을 생성하며, 일관된 장면 전환과 높은 움직임의 역동성을 유지합니다. 이를 위해 다음과 같은 두 가지 주요 모듈을 도입했습니다:

  • 조건부 주의 모듈(Conditional Attention Module, CAM)
    이전 비디오 청크에서 추출한 특징을 기반으로 현재 프레임을 생성하여 청크 간 전환을 매끄럽게 유지합니다.
  • 외관 보존 모듈(Appearance Preservation Module, APM)
    초기 비디오 청크에서 장면과 객체의 고수준 특징을 추출하여 장시간 동안 외관이 유지되도록 합니다.

 

사진 : StreamingT2V 방식 개요

 

 

StreamingT2V 모델의 특징은 다음과 같습니다.

  1. CAM을 통해 영상 청크 간의 매끄러운 전환을 가능하게 하여 시간적으로 일관된 긴 영상을 생성합니다.
  2. APM은 초기 장면의 객체와 장면의 특징을 유지하여 영상 품질을 높입니다.
  3. 무작위 블렌딩 방식을 사용하여 연속적인 영상 청크 간의 불일치를 줄이고 장시간 동안 일관된 고품질 영상을 생성합니다.

 

사진 : StreamingT2V 파이프라인 개요

 

 

StreamingT2V는 다음의 3단계를 거쳐 영상을 생성합니다.

  1. 초기화 단계: 짧은 텍스트-영상 모델(예: Modelscope)을 사용하여 첫 번째 16프레임 청크를 생성합니다.
  2. Streaming T2V 단계: CAM과 APM을 사용하여 추가 프레임을 자동회귀 방식으로 생성합니다.
  3. Streaming 정제 단계: 고해상도 텍스트-영상 모델(예: MS-Vid2Vid-XL)을 사용하여 생성된 긴 영상을 정제합니다.

 

참고) 프로젝트, 논문, 코드, 영상