AI 탐구노트

Robotics Transformer 2 (RT-2) : 비전-언어-액션 모델 본문

AI 기술

Robotics Transformer 2 (RT-2) : 비전-언어-액션 모델

42morrow 2024. 9. 2. 19:25
웹 데이터로 훈련된 비전-언어 모델을 로봇 제어에 통합하여, 일반화와 의미적 추론 능력을 크게 향상시킨 비전-언어-액션(VLA) 모델

 

RT-2는 구글 딥마인드가 다양한 일상 환경에서의 로봇 제어를 위해 만든 인공지능 모델입니다.

 

기존 로봇 제어 모델은 주로 고정된 시나리오에서 훈련되어 일상의 다양한 환경에 적용되기에는 어려움이 있었습니다.

 

RT-2는 이런 문제를 해결하기 위해 웹 데이터로 훈련된 비전-언어 모델(VLM)을 로봇 제어에 통합하여, 일반화와 의미적 추론 능력을 크게 향상시켰습니다. 로봇의 행동을 텍스트 토큰으로 표현하고, 비전-언어 모델을 로봇 제어 데이터와 웹 스케일의 비전-언어 태스크로 공동 미세 조정(co-fine-tuning)하여 일반화 성능을 향상시켰죠. 

 

예전에 구글 내에서 음료수캔 등을 수거하는 로봇이 돌아다니는 영상을 본 적이 있었는데 벌써 몇번의 기술적인 점핑을 한 것 같습니다.

 

RT-2 모델의 특징을 요약하면 다음과 같습니다. 

  1. 비전-언어-액션 모델(VLA)로, 로봇의 행동을 자연어 토큰처럼 처리하여 로봇 제어와 웹 지식을 통합
  2. 웹에서 학습한 일반화 능력과 의미적 추론 능력을 로봇 제어에 직접 적용
  3. 새로운 객체와 명령에 대한 우수한 일반화 능력과 복잡한 의미적 추론 수행 가능
  4. 연쇄적 사고(chain of thought) 기법을 도입하여 다단계 의미 추론 능력 강화

 

사진 : RT-2 모델의 개요

 

 

위의 그림은 로봇의 행동을 텍스트 토큰으로 변환하여 비전-언어 모델과 함께 학습시키는 과정을 보여줍니다. 이를 통해 로봇이 비전-언어 모델의 백본을 활용하여, 웹에서 학습된 의미적 이해를 로봇 제어에 적용할 수 있게 합니다.

 

사진 : RT-2의 아키텍처 및 학습 방식

 

 

참고) 소개사이트, 논문