Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- ChatGPT
- AI
- 티스토리챌린지
- 딥마인드
- 생성형 AI
- 트랜스포머
- javascript
- 가상환경
- TRANSFORMER
- 확산 모델
- 우분투
- AI 기술
- 아두이노
- 인공지능
- 이미지 편집
- OpenAI
- 오픈AI
- 일론 머스크
- ControlNet
- LLM
- tts
- 시간적 일관성
- 멀티모달
- 서보모터
- 메타
- 오블완
- PYTHON
- LORA
- 뉴럴링크
- ubuntu
Archives
- Today
- Total
AI 탐구노트
Robotics Transformer 2 (RT-2) : 비전-언어-액션 모델 본문
웹 데이터로 훈련된 비전-언어 모델을 로봇 제어에 통합하여, 일반화와 의미적 추론 능력을 크게 향상시킨 비전-언어-액션(VLA) 모델
RT-2는 구글 딥마인드가 다양한 일상 환경에서의 로봇 제어를 위해 만든 인공지능 모델입니다.
기존 로봇 제어 모델은 주로 고정된 시나리오에서 훈련되어 일상의 다양한 환경에 적용되기에는 어려움이 있었습니다.
RT-2는 이런 문제를 해결하기 위해 웹 데이터로 훈련된 비전-언어 모델(VLM)을 로봇 제어에 통합하여, 일반화와 의미적 추론 능력을 크게 향상시켰습니다. 로봇의 행동을 텍스트 토큰으로 표현하고, 비전-언어 모델을 로봇 제어 데이터와 웹 스케일의 비전-언어 태스크로 공동 미세 조정(co-fine-tuning)하여 일반화 성능을 향상시켰죠.
예전에 구글 내에서 음료수캔 등을 수거하는 로봇이 돌아다니는 영상을 본 적이 있었는데 벌써 몇번의 기술적인 점핑을 한 것 같습니다.
RT-2 모델의 특징을 요약하면 다음과 같습니다.
- 비전-언어-액션 모델(VLA)로, 로봇의 행동을 자연어 토큰처럼 처리하여 로봇 제어와 웹 지식을 통합
- 웹에서 학습한 일반화 능력과 의미적 추론 능력을 로봇 제어에 직접 적용
- 새로운 객체와 명령에 대한 우수한 일반화 능력과 복잡한 의미적 추론 수행 가능
- 연쇄적 사고(chain of thought) 기법을 도입하여 다단계 의미 추론 능력 강화
위의 그림은 로봇의 행동을 텍스트 토큰으로 변환하여 비전-언어 모델과 함께 학습시키는 과정을 보여줍니다. 이를 통해 로봇이 비전-언어 모델의 백본을 활용하여, 웹에서 학습된 의미적 이해를 로봇 제어에 적용할 수 있게 합니다.
'AI 기술' 카테고리의 다른 글
SAM2Point : 3D 분할 수행 모델 (0) | 2024.09.03 |
---|---|
StreamingT2V : 일관되고 역동적인 긴 영상 생성 기법 (0) | 2024.09.02 |
Comic Factory : 프롬프트 기반 코믹스 만화컷 생성 모델 (5) | 2024.09.02 |
Dolma : 3조개의 토큰을 가진 데이터셋과 툴킷 (3) | 2024.09.02 |
RobustL2S : 입모양을 보고 음성을 생성하는 모델 (0) | 2024.09.01 |