Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 트랜스포머
- ChatGPT
- 생성형 AI
- 확산 모델
- 우분투
- 멀티모달
- 메타
- ControlNet
- TRANSFORMER
- 서보모터
- 뉴럴링크
- AI 기술
- 시간적 일관성
- LLM
- javascript
- AI
- 티스토리챌린지
- OpenAI
- 인공지능
- ubuntu
- 오픈AI
- PYTHON
- 가상환경
- LORA
- 일론 머스크
- 이미지 편집
- 딥마인드
- 아두이노
- 오블완
- tts
Archives
- Today
- Total
AI 탐구노트
StreamingT2V : 일관되고 역동적인 긴 영상 생성 기법 본문
일관되고 역동적인 긴 영상을 생성하는 기법
StreamingT2V는 텍스트로부터 일관되고 역동적인 장시간 영상을 생성하는 새로운 기법입니다.
기존 텍스트-영상 변환 모델은 주로 짧은 길이의 고품질 비디오(보통 16~24 프레임) 생성에 집중되어 있으며, 이를 단순하게 확장하여 긴 비디오를 생성하면 장면 전환의 불일치와 영상 품질 저하가 발생합니다.
StreamingT2V는 자동회귀(autoregressive) 방식을 사용하여 텍스트 기반으로 긴 영상을 생성하며, 일관된 장면 전환과 높은 움직임의 역동성을 유지합니다. 이를 위해 다음과 같은 두 가지 주요 모듈을 도입했습니다:
- 조건부 주의 모듈(Conditional Attention Module, CAM)
이전 비디오 청크에서 추출한 특징을 기반으로 현재 프레임을 생성하여 청크 간 전환을 매끄럽게 유지합니다. - 외관 보존 모듈(Appearance Preservation Module, APM)
초기 비디오 청크에서 장면과 객체의 고수준 특징을 추출하여 장시간 동안 외관이 유지되도록 합니다.
StreamingT2V 모델의 특징은 다음과 같습니다.
- CAM을 통해 영상 청크 간의 매끄러운 전환을 가능하게 하여 시간적으로 일관된 긴 영상을 생성합니다.
- APM은 초기 장면의 객체와 장면의 특징을 유지하여 영상 품질을 높입니다.
- 무작위 블렌딩 방식을 사용하여 연속적인 영상 청크 간의 불일치를 줄이고 장시간 동안 일관된 고품질 영상을 생성합니다.
StreamingT2V는 다음의 3단계를 거쳐 영상을 생성합니다.
- 초기화 단계: 짧은 텍스트-영상 모델(예: Modelscope)을 사용하여 첫 번째 16프레임 청크를 생성합니다.
- Streaming T2V 단계: CAM과 APM을 사용하여 추가 프레임을 자동회귀 방식으로 생성합니다.
- Streaming 정제 단계: 고해상도 텍스트-영상 모델(예: MS-Vid2Vid-XL)을 사용하여 생성된 긴 영상을 정제합니다.
'AI 기술' 카테고리의 다른 글
VIMA : 로봇팔을 제어하는 에이전트 (0) | 2024.09.03 |
---|---|
SAM2Point : 3D 분할 수행 모델 (0) | 2024.09.03 |
Robotics Transformer 2 (RT-2) : 비전-언어-액션 모델 (3) | 2024.09.02 |
Comic Factory : 프롬프트 기반 코믹스 만화컷 생성 모델 (5) | 2024.09.02 |
Dolma : 3조개의 토큰을 가진 데이터셋과 툴킷 (3) | 2024.09.02 |