AI 탐구노트

Emu3 : 멀티모달 생성 및 인식하는 단일 트랜스포머모델 본문

AI 기술

Emu3 : 멀티모달 생성 및 인식하는 단일 트랜스포머모델

42morrow 2024. 10. 3. 10:28
단일 트랜스포머 모델로 텍스트, 이미지, 영상을 처리할 수 있는 모델

 

Emu3는 이미지, 텍스트, 비디오를 토큰화하여 단일 트랜스포머 모델로 차세대 멀티모달 생성 및 인식 작업에서 최고 성능을 달성한 모델입니다.

 

사진 : Emu3와 다른 모델 간의 성능 비교

 

 

 

이전 멀티모달 모델들은 이미지나 비디오를 처리할 때 여러가지 다른 기술을 함께 사용해야 했습니다. 예로 Diffusion 모델들은 복잡한 과정이 필요했고 CLIP 같은 모델은 이미지에 대한 이해를 위해 또 다른 LLM과의 연결이 필요했습니다. 그러다보니 모델의 설계가 복잡해지고 각각의 작업에 최적화된 모듈을 별도로 만들어야 하는 불편함이 있었고 사용하기 어렵고 확장도 힘들었습니다. 

 

Emu3는 이미지, 텍스트, 비디오를 모두 토큰화하여 단일 트랜스포머를 사용한 차세대 토큰 예측을 기반으로 훈련됩니다. 이 덕분에 기존의 디퓨전 모델이나 다른 것과 조합하는 접근 방식 없이도, 멀티모달 인식 및 생성 작업에서 우수한 성능을 보여줍니다.

 

 

 

위 그림은 Emu3가 이미지, 텍스트, 비디오 데이터를 각각 토큰화한 후, 이들을 단일 트랜스포머를 통해 처리하는 구조를 보여줍니다. 트랜스포머는 다음 토큰을 예측하며, 이 과정에서 별도의 디퓨전 모델이나 복잡한 결합 모듈 없이 멀티모달 데이터에 대해 일관된 학습 및 예측이 가능해 집니다. 

 

 

Emu3 모델의 특징을 요약하면 다음과 같습니다. 

  • 단일 트랜스포머 모델 : Emu3는 모든 멀티모달 데이터를 단일 트랜스포머로 처리하여 멀티모달 작업을 통합합니다. 
  • 토큰 기반 학습 : 이미지, 텍스트, 비디오를 각각 토큰화하여 학습하며, 텍스트, 이미지, 비디오 생성까지 할 수 있습니다. 
  • 최신 성능 : Emu3는 Stable Diffusion과 LLaVA와 같은 기존의 최고 성능 모델들을 능가하는 성능을 보입니다. 
  • 비디오 예측 기능: Emu3는 비디오의 다음 프레임을 예측하여 시퀀스를 확장할 수 있으며, 텍스트를 기반으로 높은 품질의 비디오 생성이 가능합니다.

 

현재 HuggigFace에는 Emu3-Gen, Emu3-Chat, Emu3-VisionTokenizer 이렇게 3개로 Task에 따라 나눠 공개되어 있습니다.

각각, 이미지, 비디오 생성과 멀티모달 대화, 이미지, 비디오의 토큰화를 지원합니다. 

 

참고) 프로젝트, 기술문서, 코드(깃헙), 데모