AI 탐구노트

Transfusion : 단일 Transformer 기반의 멀티모달 모델 본문

AI 기술

Transfusion : 단일 Transformer 기반의 멀티모달 모델

42morrow 2024. 10. 10. 10:33

배경 사진 : Unsplash 의 Billy Huynh

 

 

Transfusion은 텍스트와 이미지를 하나의 멀티모달 모델로 통합하여 예측하고 생성할 수 있는 모델입니다.

 

기존의 방식은 텍스트와 이미지와 같은 이산적(텍스트) 및 연속적(이미지) 데이터를 통합하여 생성하는 데 어려움이 있었으며, 각각의 생성 모델을 독립적으로 사용해야 했기 때문에 비효율적이었습니다. 

 

Transfusion은 하나의 Transformer 모델을 사용해 텍스트와 이미지를 동시에 처리합니다. 텍스트는 언어 모델링 손실, 이미지는 확산 모델링 손실을 적용하며, 양쪽에 서로 다른 경량화된 모듈을 추가하여 효율성을 높였습니다. 또한 텍스트와 이미지를 처리하는 데 있어 각각 인과적 주의(Causal Attention)와 양방향 주의(Bidirectional Attention)를 결합한 Transfusion Attention 기법을 도입했습니다.

 

* 인과적 주의 : 텍스트 생성 시 사용. 단어 예측 때, 원인(앞부분의 단어)이 결과(다음 단어)를 결정하기 때문

* 양방향 주의 : 이미지 생성 시 사용. 이미지의 한 부분과 전체를 동시에 고려하면서 양방향으로 정보를 교환하는 것이 필요

 

사진 : Transfusion의 도식화

 

Transfusion 모델은 텍스트와 이미지를 처리하는 단일 Transformer 구조를 기반으로 합니다. 텍스트는 임베딩 행렬을 통해 벡터로 변환되고, 이미지는 VAE로 인코딩된 패치로 처리됩니다. U-Net과 선형 계층을 결합한 경량화 모듈이 이미지 패치에 적용되며, 이를 통해 압축된 이미지를 효율적으로 생성하게 됩니다. 

 

 

Transfusion 모델의 특징을 정리하면 다음과 같습니다.

  • 하나의 Transformer 아키텍처로 텍스트와 이미지를 통합 생성
  • 이미지 패치를 16개로 압축하여 효율성을 극대화
  • U-Net 블록을 사용하여 이미지 생성의 성능을 향상
  • 양방향 intra-image 주의를 통해 이미지 생성 품질을 향상시킴
  • 두 모달리티 간 매개변수 공유 
  • 텍스트와 이미지 모두에서 우수한 성능을 발휘

 

 

참고) 논문