AI 탐구노트

StreamMultiDiffusion : 실시간 영역 기반 텍스트-이미지 생성 모델 본문

AI 기술

StreamMultiDiffusion : 실시간 영역 기반 텍스트-이미지 생성 모델

42morrow 2024. 8. 25. 09:41
실시간 영역 기반 텍스트-이미지 생성 모델

 

 

StreamMultiDiffusion실시간 영역 기반 텍스트-이미지 생성 모델입니다.

 

서울대 ComputerVisionLab 연구원들이 발표한 이 모델은 이미지 생성 속도가 이전 대비 훨씬 빨라졌고 모델을 다중 프롬프트 스트림 배치 아키텍처로 재구성했다고 합니다. 그 결과, 사용자가 텍스트 설명을 사용하여 특정 이미지 영역을 세밀하게 제어하면서도 원하는 크기의 고품질 이미지를 빠르게 만들어낼 수 있게 되었습니다.

 

Github Repo에는 지역 기반 다중 텍스트-이미지 생성, 신속한 분리를 통한 이미지 인페인팅, 파노라마 생성 등을 수행하는 코드 예시도 함께 제공하고 있습니다.

 

여기서 끝나는 게 아니라 연구자들은 고맙게도 Gradio를 활용해 대화형으로 작동하는 Semantic Pallete(시맨틱 팔레트)라는 대화형 생성 패러다임을 제시하며 사용자가 직접 영역을 지정해 의미를 부여하는 방식으로 고품질 이미지를 실시간으로 생성할 수 있도록 도구도 공개 했습니다.  : )

 

사진: StreamMultiDiffusion을 이용한 이미지 에디터

 

 

참고) 논문코드데모