일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- AI 기술
- 휴머노이드 로봇
- 일론 머스크
- 멀티모달
- TRANSFORMER
- LORA
- 뉴럴링크
- 메타
- ChatGPT
- 티스토리챌린지
- 딥마인드
- 가상환경
- 트랜스포머
- PYTHON
- 확산 모델
- 시간적 일관성
- 서보모터
- 생성형 AI
- 인공지능
- ControlNet
- OpenAI
- LLM
- AI
- 오픈AI
- 아두이노
- ubuntu
- 우분투
- 오블완
- tts
- 딥러닝
- Today
- Total
목록텍스트-이미지 생성 (3)
AI 탐구노트
1. 서론최근 인공지능의 발전으로 텍스트를 기반으로 한 이미지 생성 기술이 주목받고 있습니다. 특히, 딥러닝의 확산 모델(diffusion model)은 텍스트 입력을 통해 놀랍도록 세부적인 이미지를 만들어내는 데 성공했습니다. 하지만 기존 기술은 참조 이미지와 텍스트의 의미를 정교하게 결합하는 데 어려움을 겪는 경우들이 아직도 있으며 이 때문에 스타일의 일관성과 의미 전달력에서 부족함이 드러나기도 합니다. Qwen2VL-Flux은 이런 문제를 해결하기 위해 개발된 모델로, 기존의 텍스트 인코더(T5-XXL)를 비전-언어 모델(Vision-Language Model, VLM)로 대체해 멀티모달 정보를 통합적으로 이해하고 처리하는 데 강점을 가집니다. 또한, 유저가 참조 이미지의 특정 영역에 초점을 맞추..
OmniGen? OmniGen은 텍스트-이미지 생성 외에도 이미지 편집, 주제 기반 생성, 시각적 조건부 생성 등의 작업을 한 번에 처리할 수 있는 통합 이미지 생성모델입니다. 보통 이미지 생성 모델은 특정 작업만 할 수 있어서, 이미지 편집이나 텍스트를 바탕으로 그림을 그릴 때 각각 다른 모델을 사용해야 했죠. 하지만 OmniGen은 하나의 모델로 다양한 작업들을 처리할 수 있습니다. 3.8B의 매개변수를 가지는 상대적으로 작은 모델이지만 높은 성능을 보입니다. 게다가 MIT 라이선스로 공개되어 있다는 장점도 있습니다. 지원하는 기능은?OmniGen은 아래와 같이 다양한 기능을 제공합니다. 텍스트-이미지 생성 : 텍스트 설명에 따라 이미지를 생성. 주어진 텍스트 조건을 기반으로 다양한 스타일과 내..
실시간 영역 기반 텍스트-이미지 생성 모델 StreamMultiDiffusion은 실시간 영역 기반 텍스트-이미지 생성 모델입니다. 서울대 ComputerVisionLab 연구원들이 발표한 이 모델은 이미지 생성 속도가 이전 대비 훨씬 빨라졌고 모델을 다중 프롬프트 스트림 배치 아키텍처로 재구성했다고 합니다. 그 결과, 사용자가 텍스트 설명을 사용하여 특정 이미지 영역을 세밀하게 제어하면서도 원하는 크기의 고품질 이미지를 빠르게 만들어낼 수 있게 되었습니다. Github Repo에는 지역 기반 다중 텍스트-이미지 생성, 신속한 분리를 통한 이미지 인페인팅, 파노라마 생성 등을 수행하는 코드 예시도 함께 제공하고 있습니다. 여기서 끝나는 게 아니라 연구자들은 고맙게도 Gradio를 활용해 대화형으로 작동..