AI 탐구노트

LVCD : 스케치 영상을 색칠하는 비디오 확산 모델 본문

AI 기술

LVCD : 스케치 영상을 색칠하는 비디오 확산 모델

42morrow 2024. 10. 3. 18:55

 

배경 사진 출처 : Unsplash의 William Warby

 

 

LVCD : 선으로 그려진 스케치 영상에 일관된 색으로 채색하는 비디오 확산 모델

 


기존의 선화(선으로 그린 그림. 스케치) 비디오 컬러화 방식은 한 프레임씩 처리하면서 오류가 쌓여가면서 전체적인 일관성이 부족해지는 문제가 있었습니다. 그 때문에 움직임이 큰 경우에는 그것을 효과적으로 처리하지 못했죠.


LVCD(Lineart Video Colorization with Diffusion Models)는 이와 같은 문제를 해결하기 위해, 미리 훈련된 대규모 비디오 확산 모델을 사용하고, Sketch-guided ControlNetReference Attention을 도입하여 선화의 구조를 기반으로 색상 전이를 수행하고 긴 비디오의 일관성을 유지하는 샘플링 방식을 제시하고 있습니다. 

 

 

LVCD 모델 아키텍처

 

사진 : sketch-guided ControlNet과 Reference Attention의 모델 아키텍처

 

 


위 그림은 핵심적으로 사용되는 2개 모델의 아키텍처를 보여주고 있습니다. 

 

Sketch-guided ControlNet은 선화의 구조 정보(예: 캐릭터의 신체 부위 위치나 윤곽 등)를 추가로 제공함으로써 선화의 윤곽이나 모양에 맞춰 색칠할 수 있도록 합니다.

 

Reference Attention을 사용하여 참조 프레임에서 멀리 떨어진 프레임까지 색상을 전이할 수 있도록 했으며, 일 인해 기존의 비디오 생성 모델이 처리하기 어려운 큰 움직임을 효과적으로 처리합니다. 그리고, Overlapped Blending Module과 Prev-Reference Attention을 사용하여 긴 애니메이션에서도 시간적 일관성을 보장합니다.

 

 

LVCD 적용 결과 예시

아래 예시에서 Ref는 참조하게 되는 이미지이고, 가운데는 컬러링을 적용해야 하는 스케치 이미지입니다.

그리고 맨 오른쪽 그림은 참조 이미지를 기반으로 해서 스케치에 컬러가 입혀진 최종 결과물인데 정말 놀랍지 않으신가요?

 

이 모델의 예시 결과를 보고 있자니 애니메이션 제작이 얼마나 용이해질지 기대가 됩니다. 

셀 애니메이션을 제작할 때 선화작업 후 디지털 컬러링과 특수효과 반영, 렌더링하는 과정을 거치게 됩니다. 

이 부분에 많은 시간과 인력이 동원되는게 현재까지의 작업 시스템의 한계죠.

그런데 이걸 아주 빠르게, 사람 개입을 최소화하면서 할 수 있게 되는 겁니다. 그것도 상당한 퀄리티를 보장하면서 말입니다. 

 

참고로 LVCD는 이런 방식으로 각 프레임을 처리함으로써, 길이가 긴 애니메이션 생성도 가능하게 합니다. 

 

사진 : 레퍼런스 프레임을 참조해 나머지 프레임들에 적용된 예시

 

사진 : 레퍼런스 프레임을 참조해 나머지 프레임들에 적용된 예시

 

 

LVCD 기술의 특징

LVCD의 기술적인 특징을 요약해 보면 다음과 같습니다. 

  • Sketch-guided ControlNet : 선화의 구조 정보를 추가적으로 활용하여 더 정교한 애니메이션을 생성
  • Reference Attention : 큰 움직임을 처리하기 위해 첫 번째 참조 프레임과 생성된 프레임 사이의 장거리 공간 매칭을 구현
  • Sequential Sampling : Overlapped Blending Module과 Prev-Reference Attention을 도입하여 긴 비디오에서 시간적 일관성을 유지하며 생성

 

 

참고) 프로젝트, 논문, 코드(깃헙)