AI 탐구노트

SWITTI: 스케일-와이즈 트랜스포머를 활용한 텍스트-이미지 생성 본문

AI 기술

SWITTI: 스케일-와이즈 트랜스포머를 활용한 텍스트-이미지 생성

42morrow 2025. 1. 11. 16:41

 

1. 서론

인공지능의 발전은 텍스트-이미지 생성 분야에서 혁신적인 변화를 가져오고 있습니다. 현재 가장 많이 사용되는 접근법 중 하나인 확산 모델(Diffusion Models)은 고품질의 이미지를 생성할 수 있지만, 생성 속도가 느리다는 한계를 가지고 있습니다. 이를 보완하기 위해 연구자들은 다양한 모델 구조와 학습 방법론을 제안해왔습니다. 이 중에서도 'Scale-Wise' 접근 방식은 이미지의 해상도를 점진적으로 예측하는 특성 덕분에 효율성과 품질을 동시에 잡을 수 있는 잠재력을 보여주고 있습니다.

 

SWITTI는 이러한 스케일-와이즈 접근을 기반으로 한 트랜스포머 모델로, 텍스트-이미지 생성에서 기존 모델 대비 효율성과 품질에서 더 나은 결과를 제공합니다. 특히, SWITTI는 비인과적(non-causal) 트랜스포머 구조와 고해상도 생성에서 텍스트 조건 의존성을 줄임으로써 성능과 속도를 동시에 개선하는 데 성공했습니다.  이번 글에서는 SWITTI의 주요 기술적 측면을 살펴보겠습니다.

그림 : SWITTI의 결과물 샘플

2. 본론

2.1. 기존 방식의 문제점

전통적인 텍스트-이미지 생성 모델은 주로 확산 모델을 사용하여 이미지의 세부적인 표현력을 높이는 데 성공했습니다. 하지만 이 방식은 고해상도 이미지를 생성하는 데 많은 계산 리소스를 필요로 하고, 실시간 응답이나 대규모 생성 작업에는 적합하지 않습니다. 반면, 기존의 오토리그레시브(Autoregressive) 모델은 속도는 빠르지만 품질 측면에서 한계를 보여왔습니다. 이러한 상황에서 스케일-와이즈 접근 방식이 점차 주목받게 되었습니다.

2.2. 접근 방식

SWITTI는 스케일-와이즈 트랜스포머를 기반으로 이미지 생성 프로세스를 개선하였습니다. 이 모델은 다음과 같은 두 가지 주요 전략을 사용합니다.

  • 비인과적 트랜스포머 구조 : 기존 인과적(Casual) 구조의 한계를 극복하기 위해 비인과적 구조(순서 안 따지고 현재 작업에만 집중)를 도입하여 메모리 사용량을 줄이고 계산 속도를 향상시켰습니다.
    * 인과적 구조 : 이미지를 단계적 순서대로 처리하면서 이전 단계의 생성 정보를 참조하는 방식

그림 : Block-Wise attention mask (인과적(Causal) vs. 비인과적(Non-Causal))

  • 고해상도 스케일에서의 텍스트 조건 비활성화 : 고해상도 이미지 생성 단계에서 텍스트 조건(Classifier-Free Guidance)을 비활성화하여 샘플링 속도를 20% 개선하고 세부적인 표현력을 높였습니다. 높은 해상도의 세부적인 이미지를 만들 때, 텍스트의 영향을 거의 받지 않는다는 것을 발견한 것에서 착안된 것이죠.

그림 : SWITTI의 샘플링 과정 설명

 

 

2.3. Switti에 적용된 세부 기술

  • RQ-VAE 기반 토크나이저 : 이미지를 다단계 해상도로 분할하여 스케일-와이즈 예측에 적합한 토큰 시퀀스를 생성합니다.
  • SwiGLU 활성화 함수 : 정보 흐름을 동적으로 제어하여 학습 안정성과 효율성을 높였습니다.
  • RMSNorm 레이어 : 활성화 값의 폭발적 성장을 제어하여 안정적인 학습을 지원합니다.
  • 텍스트 인코더 : CLIP ViT-L과 OpenCLIP ViT-bigG를 사용하여 텍스트-이미지 정렬 성능을 극대화했습니다.

 

2.4. 성능

생성된 이미지를 두고 인간 사용자가 선호하는 정도를 비교 평가한 아래 결과를 보면 텍스트와의 일치도, 미적 품질, 이미지 복잡성, 결함 유무 등 전반적인 부분에서 경쟁 모델과 동등하거나 더 나은 성능을 보여주고 있습니다. 

 

참고로 각 항목은 다음을 의미합니다.

  • Relevance (텍스트와의 일치도) : 생성된 이미지가 입력된 텍스트 프롬프트와 얼마나 잘 맞는지 평가
  • Aesthetics (미적 품질) : 생성된 이미지의 시각적 아름다움과 품질을 색상, 조화, 디테일 등의 요소를 고려해 평가
  • Image Complexity (이미지 복잡성) : 이미지에 디테일이나 다양한 요소가 얼마나 풍부한지를 평가
  • Defects (결함 유무) : 생성된 이미지에 왜곡, 불완전한 텍스트 렌더링, 왜곡된 얼굴 같은 결함이 얼마나 적은지 평가 (낮을수록 좋음)

그림 : Switti와 다른 모델 간의 비교 (인간 평가)

 

 

 

3. 결론

SWITTI는 텍스트-이미지 생성에서 품질과 속도를 모두 잡은 혁신적인 모델로 평가받고 있습니다. 비인과적 구조와 텍스트 조건 최적화를 통해 샘플링 속도를 최대 7배까지 높이고, 기존 모델과 비교해도 충분히 경쟁력 있는 결과를 보고 있죠. 허깅페이스에 공개된 데모를 실행해 보면 마치 SD Turbo가 처음 나왔을 때처럼 빠른 속도를 경험할 수 있습니다. 

 

시험삼아 공개 데모에서 서울과 뉴욕의 전경을 그려 달라고 해 봤습니다. 그랬더니 아래와 같은 결과물이 나왔습니다. 흠... 끝없이 펼쳐진 아파트와 마천루들. 뭔가 딱딱하고 각진 건물들이 주는 느낌은 비슷하지만 하나는 아파트 하나는 빌딩... '내집 마련'에 몰두하는 우리나라와 '비즈니스'에 올인하는 미국을 대비시킨 느낌이라 어째 좀 씁쓸했습니다. 그래도 한번 더 '대한민국 파이팅~!'

그림 : 서울과 뉴욕의 도시 전경을 그려달라고 했을 때의 결과물

4. 참고자료

  • 프로젝트 사이트 (링크)
  • 논문) SWITTI: Designing Scale-Wise Transformers for Text-to-Image Synthesis (링크)
  • 코드) 깃헙 (링크)
  • 데모) HuggingFace (링크)

5. Q&A

Q. SWITTI는 기존 확산 모델과 어떤 점에서 다른가요?
SWITTI는 비인과적 트랜스포머와 스케일-와이즈 접근 방식을 활용하여 속도와 효율성을 높였습니다. 확산 모델과 달리 모든 샘플링 단계를 고해상도로 처리하지 않아 빠른 성능을 제공합니다.

 

Q. SWITTI가 텍스트 조건을 비활성화하면 품질이 떨어지지 않나요?
연구 결과, 고해상도 단계에서 텍스트 조건을 비활성화하면 오히려 세부적인 이미지 품질이 향상되고, 속도도 증가합니다.