Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 오픈AI
- 뉴럴링크
- 메타
- 시간적 일관성
- 딥마인드
- 휴머노이드 로봇
- 인공지능
- 생성형 AI
- 우분투
- OpenAI
- TRANSFORMER
- ubuntu
- 티스토리챌린지
- 확산 모델
- AI 기술
- 멀티모달
- tts
- ControlNet
- 일론 머스크
- AI
- ChatGPT
- 딥러닝
- 오블완
- PYTHON
- 아두이노
- 가상환경
- LORA
- 트랜스포머
- LLM
- 서보모터
Archives
- Today
- Total
목록멀티모달 마스킹 모델링 (1)
AI 탐구노트
4M : Massively MultimodalMasked Modeling
4M은 토큰화와 마스킹을 사용하여 다양한 양식으로 확장할 수 있는 기초 모델을 훈련하기 위한 프레임워크입니다. 기존의 비전 모델들이 단일 모달리티만 지원하는 것과 달리, 4M은 텍스트, 이미지, 깊이, 표면 법선, 의미적 분할 맵, 경계 상자 등 다양한 모달리티를 지원합니다. 4M은 각각의 모달리티를 작은 정보 단위인 토큰으로 변환하여 학습합니다. 이 과정에서 일부 토큰을 입력으로 사용하고 나머지 토큰을 예측하는 방식으로 진행되어 다양한 입력과 출력을 처리할 수 있게 됩니다. 4M의 아키텍처는 토큰화를 통한 모달리티 통합, 단일 트랜스포머 네트워크를 통한 모든 모달리티 학습, 그리고 랜덤화된 토큰 서브셋을 이용한 멀티모달 마스킹 모델링으로 구성되어 있습니다. 참고) 프로젝트, 논문, 코드, 데모
AI 기술
2024. 8. 15. 19:14