AI 탐구노트

VisionThink : 스마트하게 판단하는 비전-언어 모델의 새로운 접근 본문

AI 기술

VisionThink : 스마트하게 판단하는 비전-언어 모델의 새로운 접근

42morrow 2025. 7. 21. 11:46

 

인공지능의 진화는 단일 기능을 수행하는 전통적인 시스템을 넘어, 하나의 모델이 다양한 작업을 처리할 수 있는 범용 모델로 확장되고 있습니다. 특히 이미지와 텍스트를 함께 이해하는 **비전-언어 모델(VLM: Vision-Language Model)**이 주목받고 있으며, 이들은 질문 응답(VQA), 문서 이해, OCR 등 여러 작업을 통합적으로 수행할 수 있습니다.

 

하지만 이러한 발전은 비용이라는 한계도 동반합니다. 이미지 해상도가 높을수록 모델이 처리해야 하는 **시각 토큰(Visual Token)**의 수가 급증하고, 이로 인한 연산량도 비례해 증가합니다. 문제는 모든 문제에 고해상도 이미지가 필요한 것이 아니라는 점입니다. 대부분의 일반적인 작업은 저해상도 이미지로도 충분히 해결할 수 있다는 사실에서 VisionThink는 출발합니다.

 

VisionThink는 각 문제의 난이도에 따라 저해상도 또는 고해상도를 선택적으로 사용하여 처리 효율을 높이고, 필요한 경우에만 연산 자원을 집중하는 똑똑한 시스템입니다. 이러한 기능은 **강화학습(Reinforcement Learning)**과 LLM을 활용한 판단 메커니즘을 통해 구현됩니다.

 


VisionThink

1) 기존 방식의 문제점

 

기존 Efficient VLM 모델들은 고정된 비율로 시각 토큰을 압축하거나, 일정 기준에 따라 토큰을 삭제하는 방식이 일반적이었습니다. 하지만 문제의 난이도는 항상 다르기 때문에, 모든 입력에 동일한 압축률을 적용하는 것은 필연적으로 성능 저하를 유발합니다. 특히 OCR 작업과 같은 세부 정보가 중요한 문제에서는 더 큰 문제가 발생합니다.

 

2) 접근 방식

 

VisionThink는 다음과 같은 접근을 취합니다.

  • 문제를 저해상도 이미지로 먼저 처리한 뒤, 충분하지 않다고 판단되면 고해상도를 요청하는 이중 구조
  • 이러한 판단은 강화학습(RL)을 통해 학습되며, 성능과 효율 간의 균형을 유지함
  • 일반적인 강화학습이 적용되지 않는 영역(예: VQA)에도 대응할 수 있도록, LLM이 정답 여부를 판단하는 평가자(Judge)로 작동함

 

그림 : 해상도 축소가 성능에 미치는 영향

 

 

3) 세부 적용 기술

 

1️⃣ 저해상도와 고해상도를 구분한 처리 프레임워크

 

VisionThink는 먼저 저해상도 이미지를 입력으로 받아 문제를 해결하려 시도합니다. 이 때 정보가 부족하면, 특수 토큰을 출력하여 고해상도 이미지를 요청합니다. 이를 통해 평균적으로 약 50% 이상의 시각 토큰을 절감할 수 있습니다.

그림 : VisionThink의 처리 구조

 

위의 그림은 VisionThink 모델이 이미지를 어떻게 처리하는지를 보여줍니다. 먼저 1/4 해상도의 이미지를 보고 문제를 해결할 수 있는지 판단하고, 충분치 않으면 모델이 '고해상도 이미지가 필요하다'라는 특수 토큰을 생성해 원래 해상도의 이미즈를 요청하게 됩니다. 대부분은 저해상도로 해결되므로 이를 통해 불필요한 연산을 줄일 수 있습니다.

 

 

2️⃣ Visual Language Model 기반

 

VisionThink는 GPT-4V(ision) 기반의 멀티모달 언어 모델을 사용하여 텍스트와 이미지를 함께 처리합니다. 이 모델은 입력으로 받은 이미지와 자연어 문제를 통합적으로 이해하고, 언어로 답을 생성합니다.

 

 

3️⃣ 강화학습을 통한 해상도 선택 자동화

 

문제의 난이도나 세부 정보 요구 여부는 사람이 사전에 판단하기 어렵기 때문에, 모델이 이를 스스로 학습해야 합니다. VisionThink는 GRPO(Group Relative Policy Optimization)라는 알고리즘을 통해 모델이 저해상도만으로 정답을 낼 수 있는지, 아니면 고해상도가 필요한지를 판단할 수 있도록 학습합니다.

 

 

4️⃣ 멀티턴(Multi-Turn) 상호작용 구조

 

모델이 고해상도 이미지를 요청하는 것은 단순한 1회 처리로 끝나는 것이 아니라, 저해상도 → 판단 → 고해상도 요청 → 재답변의 순차적 구조입니다. 이를 위해 Multi-Turn GRPO라는 알고리즘 확장을 제안하여, 강화학습이 다단계 처리에도 적용 가능하도록 구성했습니다. 이 구조 덕분에 VisionThink는 도구 호출이나 시각 정보 확장이 필요한 작업에도 유연하게 대응할 수 있습니다.

 

5️⃣ LLM-as-Judge: 정답 평가를 위한 새로운 전략

 

VQA 문제는 정답이 정형화되어 있지 않아, 전통적인 RL 적용이 어려웠습니다. 이를 해결하기 위해 VisionThink는 LLM(GPT 등)을 판사로 활용하여 모델의 응답이 정답인지 여부를 자연어 기준으로 평가합니다. 

 

0 또는 1의 이산값으로 보상을 설정해 판단 오류에 민감하지 않도록 설계합니다. 덕분에 일반적인 VQA 문제도 강화학습으로 최적화할 수 있습니다.

 

6️⃣ Reward & Penalty 설계

 

VisionThink의 RL 학습은 아래와 같은 보상 구조로 이루어집니다.

  • 정확도 보상 : 정답이면 +1
  • 형식 보상 : <think>, <answer> 등 정해진 형식을 지키면 +0.5
  • 제어 패널티 : 무조건 고해상도를 요청하거나 항상 저해상도만 사용하는 경향을 방지하기 위해, 상황에 따라 -0.1의 패널티 부여→ 이를 통해 '운 좋게 맞춘 저해상도 정답'도 걸러냄

그림 : 리워드 설계의 중요성과 예시

 

 

6️⃣ 학습 데이터 구축 방식

 

  • 어떤 문제가 고해상도를 필요로 하는지를 사람이 일일이 판단하는 것은 어렵기 때문에, VisionThink는 모델이 직접 여러 번의 시도를 통해 문제를 분류합니다.
  • 저해상도/고해상도 각각으로 8번씩 문제를 풀고, 둘 간의 정확도 차이가 6 이상이면 해당 문제를 ‘고해상도 필요’로 간주합니다.
  • 이를 통해 고품질의 RL 학습용 데이터를 자동 수집 및 정제할 수 있습니다.

 

 

 

4) 제약사항

  • VisionThink는 현재 2배 해상도 업스케일과 2턴 대화만 지원하며, 유연한 다단계 처리나 다양한 해상도 선택은 미지원입니다.
  • 모든 시각 문제를 이미지 리사이징으로 해결하려는 점은 제한이 있을 수 있으며, 추후 크롭, 확대 등 다양한 시각 도구와의 연동이 필요합니다.

 


 

VisionThink는 단순한 시각 토큰 압축을 넘어, 문제의 특성에 따라 자원을 효율적으로 배분하는 새로운 접근을 제시합니다. 강화학습과 LLM 평가자의 조합은 기존에 어려웠던 일반 VQA에도 효율성을 도입하게 해주며, 실제 적용 시에도 속도와 정확도라는 두 마리 토끼를 모두 잡는 데 성공했습니다.

 

향후 유연한 해상도 조절, 다양한 시각 도구 통합 등이 이루어진다면, VisionThink는 실생활에서 문서 분석, 스마트 OCR, 비전 챗봇 등에서 큰 역할을 할 수 있을 것입니다.

 


참고자료

  • 논문) VisionThink: Visual Language Models are Good Problem Solvers for Computer Vision Tasks (링크)
  • 코드) VisionThink github 저장소 (링크) - Apache 2.0 라이선스
  • 영상) VisionThink 소개 영상 (유튜브)

Q&A

 

Q. VisionThink는 어떤 문제를 해결하고자 하나요?

기존에 작업별로 모델이 달라야 했던 컴퓨터 비전 문제를 하나의 언어 기반 모델로 통합해 해결하고자 합니다.

 

Q. Chain-of-Thought 방식은 어떤 장점이 있나요?

문제를 단계별로 사고하게 하여 더 정밀하고 정확한 추론 결과를 얻을 수 있게 합니다.

 

Q. VisionThink는 실시간 응용이 가능한가요?

현재로서는 추론 비용이 높기 때문에 실시간 처리에는 한계가 있으며, 향후 최적화가 필요합니다.