'텍스트-이미지 생성' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록텍스트-이미지 생성 (3)

AI 탐구노트

SWITTI: 스케일-와이즈 트랜스포머를 활용한 텍스트-이미지 생성

1. 서론인공지능의 발전은 텍스트-이미지 생성 분야에서 혁신적인 변화를 가져오고 있습니다. 현재 가장 많이 사용되는 접근법 중 하나인 확산 모델(Diffusion Models)은 고품질의 이미지를 생성할 수 있지만, 생성 속도가 느리다는 한계를 가지고 있습니다. 이를 보완하기 위해 연구자들은 다양한 모델 구조와 학습 방법론을 제안해왔습니다. 이 중에서도 'Scale-Wise' 접근 방식은 이미지의 해상도를 점진적으로 예측하는 특성 덕분에 효율성과 품질을 동시에 잡을 수 있는 잠재력을 보여주고 있습니다. SWITTI는 이러한 스케일-와이즈 접근을 기반으로 한 트랜스포머 모델로, 텍스트-이미지 생성에서 기존 모델 대비 효율성과 품질에서 더 나은 결과를 제공합니다. 특히, SWITTI는 비인과적(non-cau..

AI 기술 2025. 1. 11. 16:41

Qwen2vl-Flux : Qwen2VL와 FLUX가 결합된 멀티모달 이미지 생성 모델

1. 서론최근 인공지능의 발전으로 텍스트를 기반으로 한 이미지 생성 기술이 주목받고 있습니다. 특히, 딥러닝의 확산 모델(diffusion model)은 텍스트 입력을 통해 놀랍도록 세부적인 이미지를 만들어내는 데 성공했습니다. 하지만 기존 기술은 참조 이미지와 텍스트의 의미를 정교하게 결합하는 데 어려움을 겪는 경우들이 아직도 있으며 이 때문에 스타일의 일관성과 의미 전달력에서 부족함이 드러나기도 합니다. Qwen2VL-Flux은 이런 문제를 해결하기 위해 개발된 모델로, 기존의 텍스트 인코더(T5-XXL)를 비전-언어 모델(Vision-Language Model, VLM)로 대체해 멀티모달 정보를 통합적으로 이해하고 처리하는 데 강점을 가집니다. 또한, 유저가 참조 이미지의 특정 영역에 초점을 맞추..

AI 기술 2024. 12. 2. 10:38

OmniGen : 이미지 생성, 이해를 위한 통합 모델

OmniGen? OmniGen은 텍스트-이미지 생성 외에도 이미지 편집, 주제 기반 생성, 시각적 조건부 생성 등의 작업을 한 번에 처리할 수 있는 통합 이미지 생성모델입니다. 보통 이미지 생성 모델은 특정 작업만 할 수 있어서, 이미지 편집이나 텍스트를 바탕으로 그림을 그릴 때 각각 다른 모델을 사용해야 했죠. 하지만 OmniGen은 하나의 모델로 다양한 작업들을 처리할 수 있습니다. 3.8B의 매개변수를 가지는 상대적으로 작은 모델이지만 높은 성능을 보입니다. 게다가 MIT 라이선스로 공개되어 있다는 장점도 있습니다. 지원하는 기능은?OmniGen은 아래와 같이 다양한 기능을 제공합니다. 텍스트-이미지 생성 : 텍스트 설명에 따라 이미지를 생성. 주어진 텍스트 조건을 기반으로 다양한 스타일과 내..

AI 기술 2024. 10. 24. 09:57

이전 Prev 1 Next 다음

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

AI 탐구노트

목록텍스트-이미지 생성 (3)

AI 탐구노트

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역