AI 탐구노트

SANA : 효율적인 초고해상도 이미지 생성의 새로운 패러다임 본문

AI 기술

SANA : 효율적인 초고해상도 이미지 생성의 새로운 패러다임

42morrow 2025. 1. 15. 17:43

 

 

지난 몇 년간 인공지능 분야에서 텍스트-이미지 변환 모델은 획기적인 발전을 이루었습니다. 초기의 U-Net 기반 구조에서 Transformer 기반으로의 전환은 모델의 효율성과 확장 가능성을 크게 개선하며 새로운 표준을 제시했습니다. 동시에, 모델의 크기가 커지고 계산 자원이 증가하면서 텍스트-이미지 변환 모델의 고해상도 이미지 생성 능력이 대폭 향상되었습니다. 이러한 발전은 이미지 생성의 품질과 해상도에서 큰 진전을 이루었지만, 대규모 모델의 높은 비용과 느린 속도는 여전히 산업계와 일반 사용자들에게 큰 장벽으로 남아 있습니다.

 

엔비디아(NVIDIA)는 최근 텍스트 기반으로 최대 4096×4096 해상도의 고품질 이미지를 빠르고 효율적으로 생성할 수 있는 혁신적인 텍스트-이미지 생성 프레임워크인 'Sana'를 발표했습니다. 이번 글에서는 SANA가 어떤 것인지 대략적으로 알아보도록 하겠습니다. 

 

그림 : SANA의 개요 및 성능 비교

 


기존 텍스트-이미지 변환 모델들의 문제점

기존의 텍스트-이미지 변환 모델은 일반적으로 U-Net 구조와 T5 또는 CLIP을 텍스트 인코더로 사용하여 텍스트와 이미지를 결합했습니다. 하지만, 이 방식은 고해상도 이미지 생성 시 매우 높은 계산 복잡도(O(N²))와 느린 처리 속도를 초래했습니다. 대규모 모델 (예: Flux, Playground v3)은 고품질 이미지를 생성할 수 있지만, 이러한 방식은 학습 및 추론 비용이 지나치게 높아 일반 사용자가 접근하기 어렵다는 단점이 있습니다.

 

SANA의 접근 방식

SANA는 이러한 문제를 해결하기 위해 다음과 같은 기술을 채택했습니다.

  • 딥 압축 오토인코더(DC-AE)
    기존 오토인코더가 8배 압축을 제공하는 데 반해, Sana의 오토인코더는 32배 압축을 구현하여 잠재 토큰의 수를 크게 줄였습니다. 이를 통해 고해상도 이미지 생성 시 필요한 계산 자원을 절감하고 효율성을 높였습니다.
  • 선형 디퓨전 트랜스포머(Linear Diffusion Transformer)
    전통적인 어텐션 메커니즘의 복잡도를 O(N²)에서 O(N)으로 줄인 선형 어텐션을 도입하여, 고해상도 이미지 생성 시 효율성을 향상시켰습니다.
  • 디코더 전용 소형 언어 모델(Large Language Model) 기반 텍스트 인코더
    T5 대신 Gemma와 같은 최신 디코더 전용 소형 언어 모델을 텍스트 인코더로 사용하여, 복잡한 인간 지시(CHI)를 더 잘 이해하고 이미지-텍스트 정합성을 향상시켰고 추가적으로 RMSNorm을 적용하여 학습 안정성을 확보했습니다.
  • 효율적인 학습 및 추론 전략
    Flow-DPM-Solver를 활용하여 샘플링 단계를 줄이고, 효율적인 캡션 레이블링 및 선택을 통해 학습 속도를 가속화하였습니다.

 

그림 : SANA 아키텍처 구성

 

위 그림은 SANA의 아키텍처로, 기존 Self-Attention 대비 계산 효율이 뛰어난 Linear Attention과 깊이 별 컨볼루션을 통해 로컬 정보들 더 잘 반영하도록 하는 Mix-FFN, 그리고 Positional Embedding 없이도 품질 저하 없이 작업이 가능하다는 것을 보여주고 있습니다. 

 

SANA의 주요 특징

  • 고해상도 지원 : 최대 4096×4096 해상도의 이미지를 생성합니다. 4K를 넘어서는 화질인데, 다른 모델들이 
  • 속도 : 기존 모델보다 100배 이상 빠른 이미지 생성 속도를 자랑합니다. NVIDIA의 최적화 기술이 적용된 결과라고 보입니다. 
  • 효율성 : Sana-0.6B는 Flux-12B보다 경쟁력이 있으며 크기는 20배 작고 100배 이상 빠릅니다.
  • 접근성 : 16GB 노트북 GPU에도 Sana-0.6B는 1초 만에 1024 × 1024 이미지를 생성할 정도로 빠릅니다. 
  • 라이선스 : Apache 2.0 라이선스를 따르고 있습니다. 

 


참고 자료

  • SANA 프로젝트 (링크
  • 코드) SANA Github Repository (링크)
  • SANA Demo (링크

정리하며

SANA는 텍스트-이미지 변환의 새로운 표준을 제시하며, 고해상도 이미지 생성의 효율성과 접근성을 동시에 해결한 혁신적인 모델입니다. 콘텐츠 제작자와 연구자들에게 고해상도 이미지 생성을 위한 효율적이고 접근성 높은 도구도 제공하고 있습니다. 

 

 

텍스트-이미지 생성 모델이 지속적으로 개선된 버전들이 나오는 상황에서, SANA가 개인적으로 눈에 띈 것은 실행 속도와 생성되는 이미지의 해상도 때문이었습니다. 마치 SDXL Turbo가 나와서 순식간에 이미지가 생성되는 것을 봤던 바로 그 순간의 충격을 한번 더 느낄 수 있었기 때문입니다. 이런 부분은 GPU를 이용한 실행최적화 기술을 다루는 NVIDIA만이 보란듯이 내세울 수 있는 특장점이라고 생각됩니다. 앞으로 SANA도 업그레이드가 되겠죠? 속도와 효율성 측면은 어느 정도 보장이 되었으니 이젠 생성되는 이미지 품질만 잘 다듬어 주길 기대해 봅니다. 


Q&A

Q. SANA는 기존 모델 대비 얼마나 빠른가요?
SANA는 Flux 대비 106배 빠른 속도를 자랑하며, 1024x1024 이미지를 0.37초 내에 생성할 수 있습니다.

 

Q. 딥 압축 오토인코더가 기존 오토인코더와 다른 점은 무엇인가요?
기존 8배 압축에 비해 SANA는 32배 압축을 통해 이미지 토큰 수를 대폭 줄였으며, 학습과 추론의 효율성을 향상시켰습니다.

 

Q. SANA의 텍스트 인코더가 T5보다 우수한 이유는 무엇인가요?
SANA는 최신 LLM(Gemma)을 텍스트 인코더로 사용하여, 텍스트 이해와 정합도가 개선되었으며, 학습 안정성이 강화되었습니다.