일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- AI 기술
- 오블완
- 트랜스포머
- ChatGPT
- 뉴럴링크
- javascript
- 아두이노
- ControlNet
- OpenAI
- 멀티모달
- 인공지능
- 일론 머스크
- 가상환경
- 시간적 일관성
- 확산 모델
- 이미지 편집
- tts
- 생성형 AI
- 티스토리챌린지
- AI
- 우분투
- LORA
- TRANSFORMER
- 서보모터
- 오픈AI
- LLM
- 메타
- ubuntu
- 딥마인드
- PYTHON
- Today
- Total
AI 탐구노트
LVCD : 스케치 영상을 색칠하는 비디오 확산 모델 본문
LVCD : 선으로 그려진 스케치 영상에 일관된 색으로 채색하는 비디오 확산 모델
기존의 선화(선으로 그린 그림. 스케치) 비디오 컬러화 방식은 한 프레임씩 처리하면서 오류가 쌓여가면서 전체적인 일관성이 부족해지는 문제가 있었습니다. 그 때문에 움직임이 큰 경우에는 그것을 효과적으로 처리하지 못했죠.
LVCD(Lineart Video Colorization with Diffusion Models)는 이와 같은 문제를 해결하기 위해, 미리 훈련된 대규모 비디오 확산 모델을 사용하고, Sketch-guided ControlNet과 Reference Attention을 도입하여 선화의 구조를 기반으로 색상 전이를 수행하고 긴 비디오의 일관성을 유지하는 샘플링 방식을 제시하고 있습니다.
LVCD 모델 아키텍처
위 그림은 핵심적으로 사용되는 2개 모델의 아키텍처를 보여주고 있습니다.
Sketch-guided ControlNet은 선화의 구조 정보(예: 캐릭터의 신체 부위 위치나 윤곽 등)를 추가로 제공함으로써 선화의 윤곽이나 모양에 맞춰 색칠할 수 있도록 합니다.
Reference Attention을 사용하여 참조 프레임에서 멀리 떨어진 프레임까지 색상을 전이할 수 있도록 했으며, 일 인해 기존의 비디오 생성 모델이 처리하기 어려운 큰 움직임을 효과적으로 처리합니다. 그리고, Overlapped Blending Module과 Prev-Reference Attention을 사용하여 긴 애니메이션에서도 시간적 일관성을 보장합니다.
LVCD 적용 결과 예시
아래 예시에서 Ref는 참조하게 되는 이미지이고, 가운데는 컬러링을 적용해야 하는 스케치 이미지입니다.
그리고 맨 오른쪽 그림은 참조 이미지를 기반으로 해서 스케치에 컬러가 입혀진 최종 결과물인데 정말 놀랍지 않으신가요?
이 모델의 예시 결과를 보고 있자니 애니메이션 제작이 얼마나 용이해질지 기대가 됩니다.
셀 애니메이션을 제작할 때 선화작업 후 디지털 컬러링과 특수효과 반영, 렌더링하는 과정을 거치게 됩니다.
이 부분에 많은 시간과 인력이 동원되는게 현재까지의 작업 시스템의 한계죠.
그런데 이걸 아주 빠르게, 사람 개입을 최소화하면서 할 수 있게 되는 겁니다. 그것도 상당한 퀄리티를 보장하면서 말입니다.
참고로 LVCD는 이런 방식으로 각 프레임을 처리함으로써, 길이가 긴 애니메이션 생성도 가능하게 합니다.
LVCD 기술의 특징
LVCD의 기술적인 특징을 요약해 보면 다음과 같습니다.
- Sketch-guided ControlNet : 선화의 구조 정보를 추가적으로 활용하여 더 정교한 애니메이션을 생성
- Reference Attention : 큰 움직임을 처리하기 위해 첫 번째 참조 프레임과 생성된 프레임 사이의 장거리 공간 매칭을 구현
- Sequential Sampling : Overlapped Blending Module과 Prev-Reference Attention을 도입하여 긴 비디오에서 시간적 일관성을 유지하며 생성
'AI 기술' 카테고리의 다른 글
Crawl4AI : 비동기 웹 크롤링 데이터 추출 및 간소화 앱 (0) | 2024.10.07 |
---|---|
Flex3D : 고품질의 3D 콘텐츠를 생성하는 모델 (2) | 2024.10.06 |
LightLLM : Python 기반 LLM 추론 및 API 제공 프레임워크 (3) | 2024.10.03 |
Emu3 : 멀티모달 생성 및 인식하는 단일 트랜스포머모델 (2) | 2024.10.03 |
PhysGen : 물리법칙을 이해하는 이미지-비디오 생성 모델 (2) | 2024.10.02 |