일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 3d 재구성
- 트랜스포머
- 오픈소스
- 시간적 일관성
- 생성형AI
- 오블완
- 휴머노이드 로봇
- ubuntu
- LLM
- PYTHON
- tts
- 인공지능
- OpenAI
- 실시간 렌더링
- 티스토리챌린지
- AI
- 메타
- 확산 모델
- 우분투
- 오픈AI
- LORA
- 코딩
- OpenCV
- 일론 머스크
- 다국어 지원
- Stable Diffusion
- 강화 학습
- AI 기술
- 생성형 AI
- 딥러닝
- Today
- Total
목록텍스트-이미지 생성 (3)
AI 탐구노트

1. 서론인공지능의 발전은 텍스트-이미지 생성 분야에서 혁신적인 변화를 가져오고 있습니다. 현재 가장 많이 사용되는 접근법 중 하나인 확산 모델(Diffusion Models)은 고품질의 이미지를 생성할 수 있지만, 생성 속도가 느리다는 한계를 가지고 있습니다. 이를 보완하기 위해 연구자들은 다양한 모델 구조와 학습 방법론을 제안해왔습니다. 이 중에서도 'Scale-Wise' 접근 방식은 이미지의 해상도를 점진적으로 예측하는 특성 덕분에 효율성과 품질을 동시에 잡을 수 있는 잠재력을 보여주고 있습니다. SWITTI는 이러한 스케일-와이즈 접근을 기반으로 한 트랜스포머 모델로, 텍스트-이미지 생성에서 기존 모델 대비 효율성과 품질에서 더 나은 결과를 제공합니다. 특히, SWITTI는 비인과적(non-cau..

1. 서론최근 인공지능의 발전으로 텍스트를 기반으로 한 이미지 생성 기술이 주목받고 있습니다. 특히, 딥러닝의 확산 모델(diffusion model)은 텍스트 입력을 통해 놀랍도록 세부적인 이미지를 만들어내는 데 성공했습니다. 하지만 기존 기술은 참조 이미지와 텍스트의 의미를 정교하게 결합하는 데 어려움을 겪는 경우들이 아직도 있으며 이 때문에 스타일의 일관성과 의미 전달력에서 부족함이 드러나기도 합니다. Qwen2VL-Flux은 이런 문제를 해결하기 위해 개발된 모델로, 기존의 텍스트 인코더(T5-XXL)를 비전-언어 모델(Vision-Language Model, VLM)로 대체해 멀티모달 정보를 통합적으로 이해하고 처리하는 데 강점을 가집니다. 또한, 유저가 참조 이미지의 특정 영역에 초점을 맞추..

OmniGen? OmniGen은 텍스트-이미지 생성 외에도 이미지 편집, 주제 기반 생성, 시각적 조건부 생성 등의 작업을 한 번에 처리할 수 있는 통합 이미지 생성모델입니다. 보통 이미지 생성 모델은 특정 작업만 할 수 있어서, 이미지 편집이나 텍스트를 바탕으로 그림을 그릴 때 각각 다른 모델을 사용해야 했죠. 하지만 OmniGen은 하나의 모델로 다양한 작업들을 처리할 수 있습니다. 3.8B의 매개변수를 가지는 상대적으로 작은 모델이지만 높은 성능을 보입니다. 게다가 MIT 라이선스로 공개되어 있다는 장점도 있습니다. 지원하는 기능은?OmniGen은 아래와 같이 다양한 기능을 제공합니다. 텍스트-이미지 생성 : 텍스트 설명에 따라 이미지를 생성. 주어진 텍스트 조건을 기반으로 다양한 스타일과 내..