AI 탐구노트

4M : Massively MultimodalMasked Modeling 본문

AI 기술

4M : Massively MultimodalMasked Modeling

42morrow 2024. 8. 15. 19:14

4M은 토큰화와 마스킹을 사용하여 다양한 양식으로 확장할 수 있는 기초 모델을 훈련하기 위한 프레임워크입니다. 기존의 비전 모델들이 단일 모달리티만 지원하는 것과 달리, 4M은 텍스트, 이미지, 깊이, 표면 법선, 의미적 분할 맵, 경계 상자 등 다양한 모달리티를 지원합니다. 4M은 각각의 모달리티를 작은 정보 단위인 토큰으로 변환하여 학습합니다. 이 과정에서 일부 토큰을 입력으로 사용하고 나머지 토큰을 예측하는 방식으로 진행되어 다양한 입력과 출력을 처리할 수 있게 됩니다.

 

4M의 아키텍처는 토큰화를 통한 모달리티 통합, 단일 트랜스포머 네트워크를 통한 모든 모달리티 학습, 그리고 랜덤화된 토큰 서브셋을 이용한 멀티모달 마스킹 모델링으로 구성되어 있습니다.

 

참고) 프로젝트논문코드데모

 

 

사진: 4M 처리 방식

 

 

사진 : 4M이 지원하는 다양한 모달리티