AI 탐구노트

BAGEL - 텍스트, 이미지, 영상 등 다양한 형태의 데이터를 통합적으로 학습해 이해와 생성을 동시에 수행할 수 있는 멀티모달 AI 모델 본문

AI 기술

BAGEL - 텍스트, 이미지, 영상 등 다양한 형태의 데이터를 통합적으로 학습해 이해와 생성을 동시에 수행할 수 있는 멀티모달 AI 모델

42morrow 2025. 5. 28. 14:59

 

우리는 일상 속에서 다양한 감각을 이용해 세상을 이해합니다. 시각, 청각, 언어 등 서로 다른 정보를 조합해 더 깊이 있는 판단을 내리죠. 인공지능도 이러한 능력을 갖추기 위해 ‘멀티모달 학습’을 연구하고 있습니다. 이는 텍스트, 이미지, 영상 등 여러 종류의 데이터를 통합해 이해하고 생성하는 기술을 말합니다. 최근에는 이러한 능력을 하나의 모델 안에서 통합하려는 시도가 활발해지고 있습니다.

 

하지만 대부분의 연구는 이미지-텍스트 쌍(pair) 중심으로 구성된 제한된 데이터에만 의존해왔습니다. 이에 따라 학계에서 공개된 모델들은 구글의 Gemini나 OpenAI의 GPT-4o 같은 상용 시스템과는 성능 차이를 보였습니다. 이 간극을 좁히기 위해 텍스트, 이미지, 영상, 웹 정보가 혼합된 ‘인터리브드(interleaved)’ 데이터로 대규모 사전학습을 수행BAGEL 모델이 소개되었습니다. 이 모델은 단순한 이미지 생성이나 이해를 넘어, 복잡한 영상 편집, 세계 모델링까지 가능케 하며, 다양한 평가에서 뛰어난 성능을 보였습니다.


BAGEL

1) 기존 방식의 문제점

 

전통적인 멀티모달 모델들은 주로 텍스트와 이미지 간의 짝지어진 데이터를 기반으로 학습해 왔습니다. 이런 방식은 기본적인 이미지 생성이나 설명에는 유용하지만, 시간이 흐르거나 복잡한 추론이 필요한 작업에는 한계가 있습니다. 예를 들어, 영상의 장면 흐름을 이해하거나, 사용자의 질문에 따라 이미지를 수정하는 작업에는 부족한 성능을 보였습니다. 또한, 기존 모델은 이해와 생성을 별도로 처리하며, 이로 인해 정보 손실이 발생하거나, 문맥을 일관되게 유지하기 어려웠습니다.

 

2) 접근 방식

 

BAGEL 모델‘통합 멀티모달 학습’을 위해 새로운 접근을 택했습니다. 하나의 모델 안에서 텍스트, 이미지, 영상 데이터를 자연스럽게 섞은 대규모 데이터(인터리브드 데이터)를 활용해 학습합니다. 이렇게 하면 이미지와 텍스트, 그리고 영상이 단절되지 않고 서로 연관된 형태로 학습되어, 더 복잡하고 자연스러운 추론이 가능해집니다.

 

BAGEL은 이해와 생성을 각각 담당하는 트랜스포머(Transformer) 전문가 모듈을 갖추고 있습니다. 하지만 이 두 모듈은 동일한 데이터 흐름 속에서 작동하며, 서로 끊김 없이 정보를 주고받을 수 있습니다. 덕분에 모델은 장기 문맥 추론, 복합 편집, 미래 예측과 같은 고급 기능을 자연스럽게 수행할 수 있게 됩니다.

 

3) 세부 적용 기술

  • 인터리브드 데이터 : 텍스트, 이미지, 영상이 섞인 데이터를 통해 모델이 현실 세계를 더 잘 이해하도록 설계되었습니다. 예를 들어, 동영상의 장면 간 변화 설명이나 웹 문서에 포함된 이미지에 대한 설명을 함께 학습합니다.

그림 : 인터리브드 데이터 구축 과정 (영상:좌, 웹 문서 기반:우)

 

  • MoT(Mixture-of-Transformers) 아키텍처 : 이해 전용과 생성 전용 트랜스포머를 따로 두되, 동일한 입력 토큰에 대해 동시에 작동하여 효율성과 성능을 극대화합니다. 이는 기존의 병목 현상을 제거하고, 다양한 능력의 동시 학습을 가능하게 합니다.

그림: 모델 아키텍처 (이해와 생성의 통합 구조)

 

  • 시각 정보 처리
    • 이해 전용 : ViT(Vision Transformer) 기반의 인코더로 픽셀 데이터를 의미 있는 토큰으로 바꿉니다.
    • 생성 전용 : FLUX 기반의 VAE(Variational AutoEncoder)를 활용해 이미지를 잠재 공간(latent space)으로 변환한 뒤, 이를 생성에 활용합니다.
  • 일반화된 인과적 어텐션 : 서로 다른 이미지나 텍스트가 포함된 데이터에서도 문맥을 적절히 연결해, 연속된 장면이나 문장을 일관되게 이해하고 생성할 수 있게 합니다.
  • 사고 기반 생성(Self-CoT) : 이미지 생성 전에 텍스트 기반으로 ‘무엇을 어떻게 만들지’에 대한 사고 과정을 거쳐, 보다 논리적이고 의도에 부합하는 결과를 생성합니다.

4) 제약사항

 

모델 훈련에는 막대한 데이터와 연산 자원이 필요하며, 여전히 GPT-4o와 같은 상용 모델에 비해서는 일부 영역에서 격차가 존재합니다.


 

BAGEL 모델은 단순히 텍스트-이미지 매칭을 넘어서, 다양한 형태의 멀티모달 데이터를 통합하여 학습한 최초의 오픈소스 통합 모델 중 하나입니다. 이 모델은 이미지 생성, 편집, 영상 분석, 그리고 복잡한 세계 모델링까지 가능하게 하며, 상용 시스템과의 격차를 점차 좁혀가고 있습니다.

 

특히 reasoning 기반 생성 기술을 더 발전시킨다면, 향후 자율주행, 로봇, 디지털 콘텐츠 제작 등 다양한 분야에서 실질적인 활용이 가능할 것으로 기대됩니다.


참고자료

  • 사이트) BAGEL 프로젝트 (링크)
  • 논문) Emerging Properties in Unified Multimodal Pretraining  (링크)
  • 코드) BAGEL github 저장소 (링크)
  • 데모) BAGEL 데모 사이트 (링크)  -> 생각보다 응답 속도가 너무 느리긴 하지만 작동은 합니다. 인내가 필요~!!!

 

Q&A

 

Q. BAGEL 모델은 어떤 데이터를 사용하여 학습되었나요?

A. 텍스트, 이미지, 영상, 웹 문서 등 다양한 정보를 통합한 ‘인터리브드’ 데이터를 사용했습니다.

 

Q. 기존 멀티모달 모델과의 차별점은 무엇인가요?

A. 기존 모델은 이해와 생성을 분리하거나 병목 구조를 사용했지만, BAGEL은 하나의 트랜스포머 안에서 두 기능을 통합하고 있습니다.

 

Q. 모델은 어떤 능력이 ‘Emerging’ 되었나요?

A. 처음에는 이미지 이해, 그 다음에는 편집, 그리고 마지막에는 고차원적인 시각-언어 추론 능력이 순차적으로 나타났습니다.