Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 일론 머스크
- tts
- ubuntu
- 뉴럴링크
- 오픈AI
- 오블완
- 서보모터
- 휴머노이드 로봇
- 티스토리챌린지
- LORA
- 아두이노
- 우분투
- 멀티모달
- ChatGPT
- AI
- 인공지능
- 시간적 일관성
- 딥마인드
- LLM
- PYTHON
- 확산 모델
- AI 기술
- 생성형 AI
- 가상환경
- TRANSFORMER
- OpenAI
- 트랜스포머
- ControlNet
- 딥러닝
- 메타
Archives
- Today
- Total
AI 탐구노트
VIMA : 로봇팔을 제어하는 에이전트 본문
언어, 이미지, 비디오 등을 엮어 다중모드 프롬프트로 표현하고 학습하여 로봇 팔을 제어할 수 있도록 한 에이전트
일반적으로 로봇(예:협동로봇)에게 작업을 지시하기 위해서는, 사람이 직접 로봇팔 등을 조작하는 것을 모방하도록 학습을 시키거나 언어적으로 지시문을 주고 이를 처리하도록 하거나 혹은 시각적으로 최종 상태를 목표로 제시하여 이를 달성하도록 학습시키는 방식이 사용됩니다. 그런데 이런 것들은 제각각 그 작업을 수행할 수 있도록 하는 전용 모델을 사용하게 되죠. NVIDIA에서 발표한 VIMA는 이렇게 하는 대신 언어, 이미지, 비디오 등을 엮어 다중모드 프롬프트로 표현하고 학습하여 로봇 팔을 제어할 수 있도록 한 에이전트입니다.
'AI 기술' 카테고리의 다른 글
PDFA-ENG-WDS : 영어 위주의 대규모 OCR 데이터셋 (2) | 2024.09.04 |
---|---|
STYLEGANEX : StyleGAN의 제약을 해결한 모델 (0) | 2024.09.03 |
SAM2Point : 3D 분할 수행 모델 (0) | 2024.09.03 |
StreamingT2V : 일관되고 역동적인 긴 영상 생성 기법 (0) | 2024.09.02 |
Robotics Transformer 2 (RT-2) : 비전-언어-액션 모델 (3) | 2024.09.02 |