Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 확산 모델
- 아두이노
- 시간적 일관성
- OpenAI
- 멀티모달
- ChatGPT
- AI 기술
- 오블완
- ControlNet
- 서보모터
- 메타
- 딥마인드
- 뉴럴링크
- ubuntu
- 오픈AI
- 트랜스포머
- javascript
- 생성형 AI
- tts
- LLM
- 우분투
- 티스토리챌린지
- 일론 머스크
- LORA
- TRANSFORMER
- 이미지 편집
- AI
- PYTHON
- 인공지능
- 가상환경
Archives
- Today
- Total
AI 탐구노트
4M : Massively MultimodalMasked Modeling 본문
4M은 토큰화와 마스킹을 사용하여 다양한 양식으로 확장할 수 있는 기초 모델을 훈련하기 위한 프레임워크입니다. 기존의 비전 모델들이 단일 모달리티만 지원하는 것과 달리, 4M은 텍스트, 이미지, 깊이, 표면 법선, 의미적 분할 맵, 경계 상자 등 다양한 모달리티를 지원합니다. 4M은 각각의 모달리티를 작은 정보 단위인 토큰으로 변환하여 학습합니다. 이 과정에서 일부 토큰을 입력으로 사용하고 나머지 토큰을 예측하는 방식으로 진행되어 다양한 입력과 출력을 처리할 수 있게 됩니다.
4M의 아키텍처는 토큰화를 통한 모달리티 통합, 단일 트랜스포머 네트워크를 통한 모든 모달리티 학습, 그리고 랜덤화된 토큰 서브셋을 이용한 멀티모달 마스킹 모델링으로 구성되어 있습니다.
'AI 기술' 카테고리의 다른 글
Granite Code Models : IBM의 자연어, 코드 생성 모델 (0) | 2024.08.16 |
---|---|
HumanPlus : 인간을 모방하는 휴머노이드 로봇 시스템 (0) | 2024.08.16 |
AlphaFold 3 : 생체분자의 구조와 상호작용 예측 모델 (0) | 2024.08.15 |
EgoPet : 개, 고양이 등 동물의 시점 영상 데이터셋 (0) | 2024.08.15 |
AniTalker : 자연스럽게 말하는 대화 영상 생성 프레임워크 (0) | 2024.08.15 |