일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 오픈AI
- 시간적 일관성
- 오블완
- 우분투
- TRANSFORMER
- 확산 모델
- AI
- 이미지 생성
- 아두이노
- AI 기술
- 휴머노이드 로봇
- ChatGPT
- tts
- 다국어 지원
- 인공지능
- 트랜스포머
- 오픈소스
- ubuntu
- 메타
- 실시간 렌더링
- LLM
- 딥러닝
- PYTHON
- OpenAI
- 일론 머스크
- 티스토리챌린지
- 강화 학습
- LORA
- OpenCV
- 생성형 AI
- Today
- Total
AI 탐구노트
InfiniteYou : 얼굴은 그대로, 사진은 자유롭게 바꾸는 AI 기술 본문
요즘 SNS에서 '셀카를 디즈니 공주처럼 바꿔주는 필터'나 '내 얼굴로 영화 속 장면을 재현해주는 앱'들이 인기를 끌고 있습니다. 이처럼 사용자의 얼굴을 유지하면서도 다양한 스타일이나 배경으로 이미지를 바꾸는 기술을 '정체성 보존 이미지 생성(Identity-preserved Image Generation)'이라고 합니다. 하지만, 이 기술은 생각보다 쉽지 않습니다. 얼굴은 그대로인데 옷, 배경, 포즈 등은 자유롭게 바꾸려면 AI에게 꽤나 어려운 주문이기 때문이죠.
최근에는 이미지 생성 기술 중에서도 특히 '디퓨전 트랜스포머(Diffusion Transformers, DiTs)'라는 강력한 모델들이 떠오르고 있습니다. 이 모델들은 매우 정밀하고 아름다운 이미지를 만들어낼 수 있어서 예술, 디자인, 광고 등 여러 분야에서 주목받고 있습니다. 그런데 이 DiT 기반 기술을 ‘정체성 보존 이미지 생성’에 적용하기는 여전히 어려움이 많았습니다.
이번에 소개할 InfiniteYou (InfU)는 바로 이런 문제를 해결하기 위한 연구입니다. 기존 기술들의 한계를 넘어, 얼굴은 유지하면서도 텍스트로 자유롭게 사진을 바꾸는 새로운 AI 프레임워크를 소개합니다. 특히, InfuseNet이라는 독창적인 모듈을 통해 얼굴 정보는 정확히 유지하면서 이미지 품질과 스타일까지 챙길 수 있는 방식이 돋보입니다.
InfiniteYou
1) 기존 이미지 생성 기술의 제약사항
기존의 이미지 생성 기술, 특히 얼굴 정보를 유지하면서 이미지를 바꾸는 기술은 대부분 U-Net 기반의 디퓨전 모델에 의존해 왔습니다. 대표적인 예가 'Stable Diffusion'이죠. 하지만 이 방식은 이미지 품질이 다소 떨어지고, 텍스트와 이미지 간의 일치도가 낮거나 얼굴이 잘못 복사되는 문제가 발생했습니다.
또한 기존에 얼굴 정보를 넣는 방식(IP-Adapter)은 이미지 품질을 떨어뜨리는 부작용도 있었습니다. 즉, 얼굴은 비슷하지만 전체적인 완성도나 표현력이 부족했던 것이죠.
2) 접근 방식
InfiniteYou는 기존 한계를 극복하기 위해 강력한 DiT(Diffusion Transformer) 기반 모델인 FLUX를 사용하고, 여기에 새로운 모듈인 InfuseNet을 도입합니다. 이 구조는 기존의 생성 능력을 해치지 않으면서 얼굴 정보를 자연스럽게 반영할 수 있게 설계되었습니다.
또한 학습 과정에서 두 단계를 거칩니다:
- 1단계 : 실제 인물 사진 하나를 기반으로 기본 모델을 학습
- 2단계 : 다양한 스타일과 포즈로 바뀐 가상의 이미지들을 이용해 정교하게 조정
이 과정을 통해 얼굴은 그대로지만 배경, 스타일, 자세 등을 자유롭게 바꿀 수 있는 모델이 만들어집니다.
3) 세부 적용 기술
1️⃣ InfuseNet
InfuseNet은 얼굴 정보를 잔차 연결(residual connection) 방식으로 DiT 모델에 주입합니다. 기존 방식(IP-Adapter)이 주로 '주의(attention)' 레이어를 수정하는 것과 달리, 이 방식은 모델의 핵심 구조를 건드리지 않아 품질 저하가 없습니다. 덕분에 얼굴은 정밀하게 유지하면서도 전체 이미지가 더 아름답게 표현됩니다.
2️⃣ Residual Injection
InfuseNet은 '잔차 주입'을 통해 얼굴 특징을 모델에 전달합니다. 즉, DiT의 여러 블록에 얼굴 정보를 살짝씩 보태주는 방식인데, 이 덕분에 텍스트로는 옷, 배경, 스타일을 바꾸면서도 얼굴은 바뀌지 않는 결과를 만들 수 있습니다.
3️⃣ SPMS 데이터 생성
학습의 2단계에서는 '한 사람의 다양한 이미지(Single Person Multiple Sample)'를 합성해 사용하는데, 이를 위해 미리 학습된 모델을 활용해 고품질 이미지를 자동 생성합니다. 이 방법은 실제 데이터를 많이 수집하지 않아도 다양한 학습이 가능하도록 해줍니다.
4️⃣ Plug-and-Play 설계
InfiniteYou는 다양한 다른 기술들과 쉽게 연동됩니다. 예를 들어 포즈를 조절하는 ControlNet이나 스타일을 바꾸는 LoRA 같은 모듈들과도 호환되어, 사용자가 원하는 스타일을 더 다양하게 적용할 수 있습니다.
4) 제약사항
InfU는 매우 뛰어난 성능을 보이지만, 여전히 몇 가지 과제가 남아 있습니다. 예를 들어, 아주 복잡한 텍스트 요구나 특이한 얼굴 표현에서는 품질이 조금 떨어질 수 있으며, 고품질 합성 데이터 생성은 시간이 많이 소요될 수 있습니다. 또한 실제와 너무 흡사한 가짜 이미지 생성은 윤리적 문제를 유발할 수 있어, 활용에는 주의가 필요합니다.
InfiniteYou는 기존의 정체성 보존 이미지 생성 기술을 한 단계 끌어올린 혁신적인 AI 프레임워크입니다. 특히, InfuseNet을 통한 얼굴 정보 주입 방식과 다단계 학습 전략은 기술적인 의의가 큽니다. 실생활에서는 셀카 스타일 변경, 영화나 게임 캐릭터화, 가상 회의용 아바타 제작 등 다양한 활용이 가능하며, 향후 교육, 엔터테인먼트, 패션 분야에서도 큰 파급력을 가질 수 있습니다.
참고자료
- 논문) InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity (링크)
- 코드) InfiniteYou github repo (링크)
Q&A
Q. InfuseNet은 기존의 IP-Adapter와 어떤 점이 다른가요?
InfuseNet은 얼굴 정보를 '잔차 연결' 방식으로 주입하여 모델의 생성 능력을 해치지 않습니다. 반면, IP-Adapter는 모델의 핵심 구조인 주의(attention) 레이어를 직접 수정하기 때문에 이미지 품질 저하가 발생할 수 있습니다.
Q. SPMS 데이터는 왜 중요한가요?
SPMS는 한 사람의 다양한 스타일 이미지를 합성하여 학습에 활용하는 방식입니다. 이를 통해 모델은 얼굴을 유지하면서도 다양한 상황에 맞는 이미지 생성을 배울 수 있습니다.
Q. 실제 사용자에게는 어떤 이점이 있나요?
자신의 얼굴을 다양한 스타일로 바꿀 수 있으며, 광고나 콘텐츠 제작, 소셜 미디어 등에서 개인화된 이미지를 쉽게 만들 수 있습니다. 창작자가 아니어도 손쉽게 활용 가능한 것이 큰 장점입니다.
'AI 기술' 카테고리의 다른 글
RivVideoFlow : 딥러닝을 이용한 물의 흐름 속도 측정 (0) | 2025.03.27 |
---|---|
Murre: 한 장의 사진으로 3D 공간을 만드는 새로운 기술 (2) | 2025.03.26 |
SynCity : 텍스트만으로 만드는 자유로운 3D 세상 (1) | 2025.03.24 |
Neural Path Representation을 활용한 Text-to-Vector 생성 (0) | 2025.03.22 |
RI3D : 소수의 이미지로 3D 장면을 재구성하는 확산 모델 기반 기술 (0) | 2025.03.21 |