AI 탐구노트

CTRL-Adapter 본문

AI 기술

CTRL-Adapter

42morrow 2024. 8. 14. 22:06

텍스트를 이용한 이미지 생성 모델에서 깊이 지도, 스케치, 사람의 자세 등의 조건을 추가하기 위해 ControNet(*1)을 사용하는 경우가 많습니다. 이미지의 경우는 대부분 잘 작동하지만 비디오에 적용하기 위해서는 각 프레임 별로 이 작업이 이뤄져야 하고 프레임 간에는 일관성을 보장하기 어렵다는 문제가 있었죠.

 

CTRL-Adapter는 ControlNet을 효율적으로 재사용하여 이미지 또는 비디오 확산모델에 다양한 공간 제어 조건을 추가할 수도 있도록 만든 프레임워크입니다. 이를 통해 이미지와 비디오 생성 시 더 세밀한 제어가 가능해지고 연산을 위한 자원도 절약할 수 있습니다. 이 프레임워크는 미리 훈련된 ControlNet의 특성을 새로운 확산 모델에 맞게 조정하는 어댑터 모듈을 훈련시키는데, 이는 이미지의 공간적 특징과 비디오의 시간적 일관성 유지를 위한 공간/시간 컨볼루션과 다양한 조건에 따라 동적으로 특징을 조정하기 위한 공간/시간 어텐션 메커니즘으로 구성되어 있습니다.

 

*1) ControlNet이란 이미지 생성 및 변형 작업에서 사용자가 특정한 방식으로 결과를 제어하고 싶을 때 사용하는 도구로, 베이스가 되는 이미지 생성 모델에 추가적으로 연결되어 사용자가 원하는 형태의 가이드라인을 제공하는 것이죠. 주로 스케치나 특정 포즈, 깊이 정보, 분할 정보 등등이 있습니다.  

 

참고) 프로젝트논문코드

 

 

사진 : CTRL-Adapter 프레임워크 개요