AI 탐구노트

HOVER : 여러 제어 방식을 통합한 범용 신경망 기반 전체 신체 제어기 본문

AI 기술

HOVER : 여러 제어 방식을 통합한 범용 신경망 기반 전체 신체 제어기

42morrow 2024. 11. 5. 12:30

 

1.개요

1.1.기존 문제점

기존 휴머노이드 로봇 제어 방식은 각각의 작업에 맞춘 별도의 제어기가 필요했습니다. 예를 들어 로봇이 이동할 때와 물건을 집을 때 각기 다른 방식으로 제어를 하게 되고 작업이 추가될 때마다 제어 시스템을 다시 훈련하거나 수정해야 했습니다.

 

1.2 HOVER

HOVER는 휴머노이드 로봇이 이동, 물건 조작 등 여러 다양한 작업을 하나의 통합된 제어 시스템으로 수행하도록 돕는 기술입니다. NVIDIA 연구진이 소형 신경망을 개발해 특화된 시스템보다 효율적으로 휴머노이드를 제어할 수 있음을 보여준 것입니다. 

 

2.HOVER 기술요소

 

2.1.특징

 

HOVER는 여러 작업 모드를 하나로 통합하여 로봇이 이동하거나 물건을 다루는 동작을 하나의 제어 방식으로 자연스럽게 전환할 수 있도록 할 수 있도록, 인간의 움직임을 모방하여 균형 잡기와 정확한 동작을 학습시키고, 이를 바탕으로 다양한 작업을 수행할 수 있도록 설계되었습니다.

 

150만개의 매개변수만으로 복잡한 로봇 움직임을 처리하며, VR 헤드셋, 모션 캡처, 외골격, 조이스틱 등 다양한 입력 방법과 호환됩니다. NVIDIA의 Isaac 시뮬레이터 환경에서 훈련되었는데, 1년의 훈련을 단 50분에 완료했다고 합니다.

 

추가적인 특징은 다음과 같습니다. 

  • 다중 모드 정책 증류 : 여러 제어 모드를 통합한 정책을 학습하고, 이를 통해 상체 및 하체를 각각의 제어 모드에 맞춰 유연하게 조정 가능합니다. 
  • 운동 모방을 통한 범용 제어 : 사람의 모션 캡처 데이터(MoCap)를 사용하여 인간과 유사한 균형감각과 동작을 모방하는 정책을 학습합니다. 
  • 효율적인 멀티 모드 전환 : 다양한 모드에서 효과적으로 동작할 수 있도록 설계되어, 모드 전환 시 정책을 다시 학습할 필요가 없습니다. 

 

2.2.시스템 제어 구조

 

아래 그림은 HOVER 시스템의 제어 구조를 보여주며, 휴머노이드 로봇이 다양한 작업(모드)에 맞춰 동작할 수 있는 방식을 시각적으로 설명하고 있습니다. 그림에서는 로봇이 상황에 따라 선택적으로 동작할 수 있는 세 가지 주요 제어 모드를 다루고 있습니다

  • 운동 위치 추적 (Kinematic Position Tracking : 파란색)
  • 관절 각도 추적 (Local Joint Angle Tracking : 노란색)
  • 몸통 제어 (Root Tracking : 보라색)

 

그림 : HOVER 시스템의 제어 구조

 

2.3. 시스템의 정책 증류 과정 

아래 그림은 HOVER 시스템이 다양한 작업 모드를 효과적으로 학습하는 정책 증류 과정을 도식화한 것입니다. 이 과정은 Oracle 정책이라고 불리는 전문가 정책을 바탕으로, HOVER 정책을 학습 시키는 구조를 갖고 있습니다. 

 

그림 : HOVER의 정책 증류 과정 도식화

 

 

위에서 사용되는 용어를 정리해 보면 다음과 같습니다.

 

  • 오라클 정책 (Oracle Policy) : 모셥캡처(MoCap) 데이터를 사용해 사람의 동작을 모방한 전문가 모델입니다. 
  • HOVER 정책 (HOVER policy) : 오라클 정책을 기반으로 다양한 모드에서 작업을 수행할 수 있도록 하는 학생 모델입니다.
  • 명령 마스크(Command Mask) : 각 작업 모드에 필요한 제어 명령 활성화/비활성화하기 위한 것으로, Mode Mask(필요한 것 활성화), Sparsity Mask(필요치 않은 것 비활성화)가 있습니다. 

DAgger 라는 기법을 이용해 HOVER 정책이 오라클 동작을 모방하도록 학습함으로써 실제 상황에서 오라클 정책과 유사한 동작을 보여주며 다양한 작업 모드로 원활하게 전환할 수 있도록 합니다. 

 

 

3.요약

HOVER는 시뮬레이션을 통해 휴머노이드 로봇을 훈련시키는 시스템으로, 영화 매트릭스 1편에서 모피어스와 네오가 함께 훈련하던 가상 '도장' 같은 역할을 하는 Isaac라는 시스템에서 실제 훈련을 하는 것이라고 보시면 되겠습니다. 네오가 단 시간에 수많은 무술이나 총기류 다루는 방법을 익힌 것처럼 휴머노이드 로봇도 수많은 사람들의 행동을 단시간에 모방 학습하고 그 결과가 다시 각각의 휴머노이드에 배포되어 동작하는 것을 볼 수 있는 시기가 조만간 올 것이란 생각이 듭니다. 특히 최근 보스턴다이나믹스의 '올 뉴 아틀라스'나 테슬라의 '옵티머스' 등을 보면 그런 생각이 더 강해집니다. 

 

 


참고정보

1.HOVER 프로젝트 사이트

 

HOVER: Versatile Neural Whole-Body Controller for Humanoid Robots

by Tairan He, Wenli Xiao, Toru Lin, Zhengyi Luo, Zhenjia Xu, Zhenyu Jiang, Changliu Liu, Guanya Shi, Xiaolong Wang, Jim Fan, Yuke Zhu

hover-versatile-humanoid.github.io

 

 

2.논문

https://hover-versatile-humanoid.github.io/resources/HOVER_paper.pdf