Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- PYTHON
- ChatGPT
- 오블완
- 서보모터
- 확산 모델
- 메타
- OpenAI
- 트랜스포머
- 생성형 AI
- 일론 머스크
- TRANSFORMER
- 오픈AI
- 딥마인드
- 티스토리챌린지
- 뉴럴링크
- 인공지능
- javascript
- 멀티모달
- 이미지 편집
- LORA
- AI 기술
- tts
- ubuntu
- 아두이노
- 우분투
- 가상환경
- 시간적 일관성
- AI
- ControlNet
- LLM
Archives
- Today
- Total
AI 탐구노트
CTRL-Adapter 본문
텍스트를 이용한 이미지 생성 모델에서 깊이 지도, 스케치, 사람의 자세 등의 조건을 추가하기 위해 ControNet(*1)을 사용하는 경우가 많습니다. 이미지의 경우는 대부분 잘 작동하지만 비디오에 적용하기 위해서는 각 프레임 별로 이 작업이 이뤄져야 하고 프레임 간에는 일관성을 보장하기 어렵다는 문제가 있었죠.
CTRL-Adapter는 ControlNet을 효율적으로 재사용하여 이미지 또는 비디오 확산모델에 다양한 공간 제어 조건을 추가할 수도 있도록 만든 프레임워크입니다. 이를 통해 이미지와 비디오 생성 시 더 세밀한 제어가 가능해지고 연산을 위한 자원도 절약할 수 있습니다. 이 프레임워크는 미리 훈련된 ControlNet의 특성을 새로운 확산 모델에 맞게 조정하는 어댑터 모듈을 훈련시키는데, 이는 이미지의 공간적 특징과 비디오의 시간적 일관성 유지를 위한 공간/시간 컨볼루션과 다양한 조건에 따라 동적으로 특징을 조정하기 위한 공간/시간 어텐션 메커니즘으로 구성되어 있습니다.
*1) ControlNet이란 이미지 생성 및 변형 작업에서 사용자가 특정한 방식으로 결과를 제어하고 싶을 때 사용하는 도구로, 베이스가 되는 이미지 생성 모델에 추가적으로 연결되어 사용자가 원하는 형태의 가이드라인을 제공하는 것이죠. 주로 스케치나 특정 포즈, 깊이 정보, 분할 정보 등등이 있습니다.
'AI 기술' 카테고리의 다른 글
P3M-Net : 비식별화된 초상화 배경 분리 (0) | 2024.08.15 |
---|---|
MatMul-free Language Model : 행렬곱을 제거한 LLM (0) | 2024.08.15 |
Slicedit (0) | 2024.08.14 |
Octopus v2 (0) | 2024.08.14 |
V-Express : 다양한 제어신호가 반영된 초상화 영상 생성 모델 (0) | 2024.08.14 |