AI 탐구노트

Visual Planning : 시각적 추론의 혁신- 이미지만으로 계획하는 AI 본문

AI 기술

Visual Planning : 시각적 추론의 혁신- 이미지만으로 계획하는 AI

42morrow 2025. 5. 22. 15:00

 

인공지능이 우리 일상 곳곳에 스며들고 있는 지금, 텍스트 기반 인공지능이 주목받고 있습니다. 대표적인 예로는 대형 언어 모델(LLM)을 들 수 있는데, 이 모델들은 복잡한 문제를 텍스트로 표현하고 해석하는 데에 뛰어난 능력을 보여줍니다. 최근에는 이미지와 텍스트를 동시에 처리하는 다중모달 인공지능(MLLM)도 등장했지만, 여전히 텍스트를 중심으로 사고를 이어갑니다. 하지만 공간 정보나 시각 정보가 중심이 되는 문제에서는 과연 이런 방식이 최선일까요?

 

실제로 사람들은 복잡한 구조를 이해하거나 계획을 세울 때 종종 그림을 그려가며 생각합니다. 예를 들어, 미로를 탐색하거나 방 구조를 계획할 때 우리는 말보다 먼저 그림을 떠올립니다. 이처럼 '보면서 생각하기'가 훨씬 자연스러운 문제 영역에서는, 인공지능도 언어가 아닌 이미지로 사고하는 것이 더 효과적일 수 있습니다.

 

이러한 배경에서 등장한 개념이 바로 시각적 계획(Visual Planning)입니다. 이 개념에 따르면, 인공지능이 텍스트 없이 오직 이미지로만 추론하고 계획할 수 있는 새로운 방법을 제시합니다. 기존과는 전혀 다른 이 방식은, 인공지능이 마치 사람처럼 그림을 그려가며 문제를 해결하도록 만드는 것이 핵심입니다.


Visual Planning

1) 기존 방식의 문제점

 

기존의 대형 언어 모델이나 다중모달 모델은 이미지를 받아들이긴 하지만, 실제 추론 과정은 여전히 텍스트 기반입니다. 즉, 이미지를 이해한 뒤, 그 내용을 문장으로 바꾸고, 그 문장을 기반으로 계획을 세우는 식입니다. 하지만 이런 방식은 이미지 속 복잡한 공간 정보나 물리적인 움직임을 정확히 반영하지 못한다는 한계가 있습니다. 실제로 시각 중심의 과제에서는 성능이 떨어지는 경우가 많습니다.

 

2) 접근 방식

 

이 논문에서는 언어를 아예 배제하고 이미지만으로 사고하고 계획하는 방식을 제안합니다. 이를 위해 'Visual Planning'이라는 새로운 추론 패러다임을 도입하고, 이를 실현할 수 있는 구체적인 학습 프레임워크로 VPRL (Visual Planning via Reinforcement Learning)을 개발했습니다.

 

VPRL은 크게 다음의 두 단계를 통해 작동합니다.

  • 이미지 시퀀스를 학습해 시각적으로 상태 전이를 예측하는 모델을 구성
  • 강화학습을 통해 실제로 목표를 달성하는 효과적인 계획을 학습

 

그림 : 다양한 추론 방식 비교 (Text기반 vs 멀티모달(CoT) vs Visual Planning(제안방식)

 

3) 세부 적용 기술

  • 시각적 상태 전이 모델 (Visual State Transition Model)
    이미지 입력을 받아 다음 상태를 이미지로 예측하는 방식입니다. 예를 들어, 미로의 현재 위치가 주어지면, 다음에 어디로 이동할지를 이미지로 보여줍니다.

그림 : 시각 계획 vs 언어 계획 비교 (VPRL vs SFT결과 비교)

 

위의 그림은 같은 문제에 대해 Gemini(텍스트 기반), SFT 모델(언어기반), VPRL(이미지 기반) 간의 비교를 보여주고 있습니다. 텍스트나 언어 기반의 경우, 생각은 많지만 결과가 틀린데 반해 이미지 기반 모델은 말은 없지만 정확하게 행동하는 것을 볼 수 있습니다. 

 

  • GRPO 기반 강화학습 (Group Relative Policy Optimization)
    단순히 다음 상태를 예측하는 데서 그치지 않고, 얼마나 목표에 가까워졌는지를 점수로 계산해 학습하는 방식입니다. 모델은 최적의 경로를 찾기 위해 다양한 경로를 시도해보며 학습합니다.

그림 : VPRL 학습 구조 (VPRL 작동 방식 설명)

 

GPRO(Group Relative Policy Optimization) : 일종의 상대 평가 방식 강화학습. 절대적 기준(보상점수)으로 판단하는 일반적인 RL과는 달리 '다른 후보들과 비교해서 어떤 행동이 나은가?'를 가지고 평가함. 즉 동시에 여러 행동을 시도하고 그 중 비교적 더 좋은 행동을 선택해 학습하는 방식

 

  • 진행도 보상 함수 (Progress Reward Function)
    이미지 간의 차이를 분석해 이동이 유효한지, 목표에 가까워졌는지를 판단합니다. 예를 들어 벽을 뚫고 지나가는 이미지를 생성하면 그에 대해 패널티를 주고, 올바른 방향으로 이동한 경우에는 보상을 줍니다.
  • 실험 환경 (FrozenLake, Maze, MiniBehavior)
    이 세 가지 환경에서 모델이 목표 지점까지 이미지 시퀀스로 이동 경로를 계획하고 실행합니다. 전통적인 텍스트 기반 방법과 비교하여, VPRL은 훨씬 더 높은 성공률을 보였습니다.

 

 

4) 제약사항

  • VPRL 방식은 텍스트를 배제하고 이미지만 생성하기 때문에 계산 비용이 높을 수 있습니다.
  • 상태 전이 해석을 위해 현재는 룰 기반 방법을 사용하고 있어, 일반화에 한계가 있을 수 있습니다.

 

이 논문은 인공지능이 언어 없이, 이미지로만 사고하고 행동할 수 있는 가능성을 제시합니다. 특히 공간 추론, 로봇 내비게이션, 조작 계획 등 시각 중심 과제에 매우 효과적이라는 점을 실험을 통해 입증했습니다. 만약 이 방식이 널리 활용된다면, 텍스트로 표현하기 어려운 복잡한 문제도 인공지능이 훨씬 더 직관적으로 해결할 수 있을 것입니다.

 

향후에는 더 다양한 환경과 더 큰 모델로 이 방식을 확장하고, 시각 상태 해석을 보다 일반화할 수 있는 컴퓨터 비전 기술과 접목하면 더욱 강력한 시각적 추론 시스템이 탄생할 것으로 기대됩니다.


참고자료

  • 논문) Visual Planning: Let’s Think Only with Images (링크)
  • 코드) Visual Planning Github 저장소 (링크) - 현재는 검증 코드만 제공되며, 모델의 checkpoint와 데이터셋 등은 추후 공개 예정이라고 되어 있음.

 


Q&A

 

Q. 시각적 계획이 텍스트 기반 계획보다 좋은 이유는 무엇인가요?

시각적 계획은 공간 정보나 물리적인 제약이 많은 과제에서 텍스트보다 더 직관적이며, 실제 상태 전이를 정확하게 반영할 수 있기 때문입니다.

 

Q. 이 방법이 적용될 수 있는 실제 사례는 무엇인가요?

로봇의 경로 탐색, 드론의 비행 계획, 자동화 설비의 작업 계획 등에서 활용될 수 있습니다.

 

Q. 강화학습이 왜 필요한가요?

단순히 데이터를 따라 하는 것(SFT)만으로는 일반화가 어렵습니다. 다양한 시도를 통해 성공률을 높이고, 유효한 계획을 학습하기 위해서는 보상을 기반으로 하는 강화학습이 효과적입니다.