Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- LLM
- 트랜스포머
- 딥마인드
- 멀티모달
- 일론 머스크
- AI
- 우분투
- LORA
- 휴머노이드 로봇
- 딥러닝
- 가상환경
- 티스토리챌린지
- 뉴럴링크
- ControlNet
- tts
- 아두이노
- PYTHON
- 인공지능
- 메타
- 시간적 일관성
- ubuntu
- 확산 모델
- 생성형 AI
- 오블완
- TRANSFORMER
- OpenAI
- 서보모터
- AI 기술
- 오픈AI
- ChatGPT
Archives
- Today
- Total
AI 탐구노트
StyleShot: A SnapShot on Any Style 본문
StyleShot은 다양한 스타일이 자유롭게 적용된 고품질의 이미지를 생성하는 모델입니다. 스타일을 참조할 텍스트나 이미지에서 특징을 추출하고 사용자가 입력한 텍스트 프롬프트나 이미지에 스타일을 적용해 결과 이미지를 생성하는 방식을 취하고 있습니다. Stable Diffusion을 기반으로 하고 있고 StyleGallery라는 다양한 스타일을 포함한 훈련 데이터셋으로 학습되었으며 모델 성능의 종합적 평가를 위한 StyleBench를 제공합니다. StyleShot은 테스트 시 별도의 튜닝 없이 스타일 전이가 바로 가능하다는 장점을 제공합니다.
적용된 기술 요소는 다음과 같습니다.
- 다중 레벨 패치 임베딩 : 이미지의 다양한 크기의 패치로부터 스타일 정보를 추출하여 더욱 풍부한 스타일 표현을 학습합니다.
- 디컬러라이제이션 및 HED 디텍터 : 원본 이미지에서 스타일 정보를 제거하고 순수한 컨텐츠 정보를 추출합니다.
- Style-Aware Encoder : 스타일 참조 이미지로부터 스타일 임베딩을 추출합니다.
- Content-Fusion Encoder : 사용자 입력(텍스트 또는 이미지)과 스타일 참조 이미지를 융합해 최종 스타일화된 이미지를 생성합니다.
- 평행 크로스-어텐션 : 스타일 임베딩을 Stable Diffusion 모델에 병렬 크로스-어텐션 모듈을 통해 통합합니다.
- 노이즈 주입 : U-Net 기반의 안정적인 확산 모델에서 스타일과 텍스트 임베딩을 결합하여 최종 결과물을 생성합니다.
'AI 기술' 카테고리의 다른 글
구글 딥마인드, 사람 수준의 탁구 로봇 에이전트 공개 (0) | 2024.08.14 |
---|---|
Florence-2 (0) | 2024.08.14 |
M3 : Matryoshka Multimodal Models (0) | 2024.08.13 |
NPGA:Neural Parametric Gaussian Avatars (0) | 2024.08.13 |
KLING (0) | 2024.08.13 |