Robotics Transformer 2 (RT-2) : 비전-언어-액션 모델

Notice

Recent Posts

Recent Comments

Link

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

AI 탐구노트

Robotics Transformer 2 (RT-2) : 비전-언어-액션 모델 본문

AI 기술

Robotics Transformer 2 (RT-2) : 비전-언어-액션 모델

42morrow 2024. 9. 2. 19:25

웹 데이터로 훈련된 비전-언어 모델을 로봇 제어에 통합하여, 일반화와 의미적 추론 능력을 크게 향상시킨 비전-언어-액션(VLA) 모델

RT-2는 구글 딥마인드가 다양한 일상 환경에서의 로봇 제어를 위해 만든 인공지능 모델입니다.

기존 로봇 제어 모델은 주로 고정된 시나리오에서 훈련되어 일상의 다양한 환경에 적용되기에는 어려움이 있었습니다.

RT-2는 이런 문제를 해결하기 위해 웹 데이터로 훈련된 비전-언어 모델(VLM)을 로봇 제어에 통합하여, 일반화와 의미적 추론 능력을 크게 향상시켰습니다. 로봇의 행동을 텍스트 토큰으로 표현하고, 비전-언어 모델을 로봇 제어 데이터와 웹 스케일의 비전-언어 태스크로 공동 미세 조정(co-fine-tuning)하여 일반화 성능을 향상시켰죠.

예전에 구글 내에서 음료수캔 등을 수거하는 로봇이 돌아다니는 영상을 본 적이 있었는데 벌써 몇번의 기술적인 점핑을 한 것 같습니다.

RT-2 모델의 특징을 요약하면 다음과 같습니다.

비전-언어-액션 모델(VLA)로, 로봇의 행동을 자연어 토큰처럼 처리하여 로봇 제어와 웹 지식을 통합
웹에서 학습한 일반화 능력과 의미적 추론 능력을 로봇 제어에 직접 적용
새로운 객체와 명령에 대한 우수한 일반화 능력과 복잡한 의미적 추론 수행 가능
연쇄적 사고(chain of thought) 기법을 도입하여 다단계 의미 추론 능력 강화

위의 그림은 로봇의 행동을 텍스트 토큰으로 변환하여 비전-언어 모델과 함께 학습시키는 과정을 보여줍니다. 이를 통해 로봇이 비전-언어 모델의 백본을 활용하여, 웹에서 학습된 의미적 이해를 로봇 제어에 적용할 수 있게 합니다.

참고) 소개사이트, 논문

'AI 기술' 카테고리의 다른 글

SAM2Point : 3D 분할 수행 모델 (0)	2024.09.03
StreamingT2V : 일관되고 역동적인 긴 영상 생성 기법 (0)	2024.09.02
Comic Factory : 프롬프트 기반 코믹스 만화컷 생성 모델 (5)	2024.09.02
Dolma : 3조개의 토큰을 가진 데이터셋과 툴킷 (3)	2024.09.02
RobustL2S : 입모양을 보고 음성을 생성하는 모델 (0)	2024.09.01

'AI 기술' Related Articles

AI 탐구노트

Robotics Transformer 2 (RT-2) : 비전-언어-액션 모델 본문

Robotics Transformer 2 (RT-2) : 비전-언어-액션 모델

'AI 기술' 카테고리의 다른 글

티스토리툴바