4M : Massively MultimodalMasked Modeling

Notice

Recent Posts

Recent Comments

Link

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

AI 탐구노트

4M : Massively MultimodalMasked Modeling 본문

AI 기술

4M : Massively MultimodalMasked Modeling

42morrow 2024. 8. 15. 19:14

4M은 토큰화와 마스킹을 사용하여 다양한 양식으로 확장할 수 있는 기초 모델을 훈련하기 위한 프레임워크입니다. 기존의 비전 모델들이 단일 모달리티만 지원하는 것과 달리, 4M은 텍스트, 이미지, 깊이, 표면 법선, 의미적 분할 맵, 경계 상자 등 다양한 모달리티를 지원합니다. 4M은 각각의 모달리티를 작은 정보 단위인 토큰으로 변환하여 학습합니다. 이 과정에서 일부 토큰을 입력으로 사용하고 나머지 토큰을 예측하는 방식으로 진행되어 다양한 입력과 출력을 처리할 수 있게 됩니다.

4M의 아키텍처는 토큰화를 통한 모달리티 통합, 단일 트랜스포머 네트워크를 통한 모든 모달리티 학습, 그리고 랜덤화된 토큰 서브셋을 이용한 멀티모달 마스킹 모델링으로 구성되어 있습니다.

참고) 프로젝트, 논문, 코드, 데모

'AI 기술' 카테고리의 다른 글

Granite Code Models : IBM의 자연어, 코드 생성 모델 (0)	2024.08.16
HumanPlus : 인간을 모방하는 휴머노이드 로봇 시스템 (0)	2024.08.16
AlphaFold 3 : 생체분자의 구조와 상호작용 예측 모델 (0)	2024.08.15
EgoPet : 개, 고양이 등 동물의 시점 영상 데이터셋 (0)	2024.08.15
AniTalker : 자연스럽게 말하는 대화 영상 생성 프레임워크 (0)	2024.08.15

'AI 기술' Related Articles

AI 탐구노트

4M : Massively MultimodalMasked Modeling 본문

4M : Massively MultimodalMasked Modeling

'AI 기술' 카테고리의 다른 글

티스토리툴바