일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 뉴럴링크
- TRANSFORMER
- ubuntu
- LORA
- 생성형 AI
- 멀티모달
- tts
- 일론 머스크
- 딥러닝
- LLM
- 메타
- AI
- 이미지 편집
- ChatGPT
- 우분투
- 티스토리챌린지
- 아두이노
- 오블완
- 서보모터
- 딥마인드
- AI 기술
- ControlNet
- 시간적 일관성
- OpenAI
- 오픈AI
- 인공지능
- PYTHON
- 트랜스포머
- 확산 모델
- 가상환경
- Today
- Total
목록ControlNet (4)
AI 탐구노트
1. 서론디지털 이미지 편집은 현대의 다양한 산업에서 필수적인 기술로 자리 잡았습니다. 하지만 세밀하고 정밀한 편집 작업은 여전히 고도의 전문성이 요구되며, 대부분의 사용자는 이 과정에서 직관적이지 않은 인터페이스와 복잡한 도구 사용의 어려움을 겪게 됩니다. 그러던 중에 생성형 AI의 등장은 기반의 이미지 생성 및 편집의 자동화에 혁신적인 변화를 가져왔습니다. 특히, Diffusion 모델과 다중모달 대규모 언어모델(MLLM)의 결합은 사용자 경험을 향상시키는 핵심적인 도구가 되고 있습니다. MagicQuill은 이러한 기술적 흐름 속에서 탄생한 혁신적인 이미지 편집 시스템입니다. 사용자는 단순한 브러시 스트로크만으로도 복잡한 편집을 수행할 수 있으며, 시스템은 사용자 의도를 실시간으로 분석하고 이에 ..
LVCD : 선으로 그려진 스케치 영상에 일관된 색으로 채색하는 비디오 확산 모델 기존의 선화(선으로 그린 그림. 스케치) 비디오 컬러화 방식은 한 프레임씩 처리하면서 오류가 쌓여가면서 전체적인 일관성이 부족해지는 문제가 있었습니다. 그 때문에 움직임이 큰 경우에는 그것을 효과적으로 처리하지 못했죠.LVCD(Lineart Video Colorization with Diffusion Models)는 이와 같은 문제를 해결하기 위해, 미리 훈련된 대규모 비디오 확산 모델을 사용하고, Sketch-guided ControlNet과 Reference Attention을 도입하여 선화의 구조를 기반으로 색상 전이를 수행하고 긴 비디오의 일관성을 유지하는 샘플링 방식을 제시하고 있습니다. LVCD 모델 아키텍처..
2단계 증류 기법이 적용된 전신 자세 예측 모델 DWPose는 2단계 증류(distillation)을 사용하여 효과적인 전신 자세 예측을 하는 모델입니다. 일반적인 자세 예측은 신체의 일부 영역을 대상으로 하는 경우가 많습니다. 이유로는 인체의 계층구조, 신체 부위에 따라 서로 달리 적용되는 다른 스케일과 낮은 해상도, 그리고 장애물이나 어려운 자세(예:손), 머리 포즈 등에 대한 충분치 않은 데이터 등이 언급됩니다. DWPose는 KD(Knowledge Distillation, 지식증류) 기술을 사용해서 이 문제를 해결하고 있습니다. 첫번째는 교사(teachre) 모델의 중간 레이어와 최종 Logit을 활용하여 학생(student) 모델을 학습하고, 두번째로는 머리의 정확한 위치 파악을 위해 자체 K..
텍스트를 이용한 이미지 생성 모델에서 깊이 지도, 스케치, 사람의 자세 등의 조건을 추가하기 위해 ControNet(*1)을 사용하는 경우가 많습니다. 이미지의 경우는 대부분 잘 작동하지만 비디오에 적용하기 위해서는 각 프레임 별로 이 작업이 이뤄져야 하고 프레임 간에는 일관성을 보장하기 어렵다는 문제가 있었죠. CTRL-Adapter는 ControlNet을 효율적으로 재사용하여 이미지 또는 비디오 확산모델에 다양한 공간 제어 조건을 추가할 수도 있도록 만든 프레임워크입니다. 이를 통해 이미지와 비디오 생성 시 더 세밀한 제어가 가능해지고 연산을 위한 자원도 절약할 수 있습니다. 이 프레임워크는 미리 훈련된 ControlNet의 특성을 새로운 확산 모델에 맞게 조정하는 어댑터 모듈을 훈련시키는데, 이는..