AI 탐구노트

T2I-R1 : 2단계 (Semantic/Token) 레벨 CoT로 이미지 생성 성능을 강화 본문

AI 기술

T2I-R1 : 2단계 (Semantic/Token) 레벨 CoT로 이미지 생성 성능을 강화

42morrow 2025. 5. 6. 19:41

 

 

디지털 콘텐츠의 비약적인 발전과 함께, 텍스트를 입력하면 이미지를 생성하는 기술이 점점 현실화되고 있습니다. 최근 등장한 대형 언어 모델(Large Language Model, LLM)은 수학 문제나 코딩 문제 해결에 있어 '생각의 흐름(Chain of Thought, CoT)'을 따르며 정답을 도출하는 능력을 입증해 왔습니다. 이 같은 방식은 이미지 생성 분야에도 적용될 수 있을까요? T2I-R1 논문은 이러한 질문에서 출발하여, 텍스트-이미지 생성(text-to-image generation)에 고차원적인 사고 과정을 접목한 새로운 접근을 제안합니다.

 

이미지를 만들어내는 모델은 단순히 입력된 문장을 해석하는 것에 그치지 않고, 텍스트 속 의미를 '생각'하고, 그 생각을 바탕으로 이미지를 구성할 수 있어야 합니다. 예를 들어 '암스테르담이 있는 나라에서 재배되는 꽃'이라는 문장을 보고 단순히 아무 꽃을 그리는 것이 아니라, '튤립'이라는 정답을 유추하고 그에 맞는 이미지를 만들어내야 하죠. 이러한 추론 능력은 단순한 단어 매칭만으로는 얻기 어렵고, 더 높은 수준의 사고 과정이 필요합니다.

 

T2I-R1은 이러한 문제를 해결하기 위해 두 가지 수준의 Chain of Thought(사고의 흐름)를 정의하고, 이를 동시에 강화하는 방법을 제시합니다. 이를 통해 모델은 단순한 이미지 생성 수준을 넘어, 사용자의 의도를 보다 정밀하게 이해하고 반영한 고품질 이미지를 생성할 수 있습니다.

 


 

T2I-R1

 

1) 기존 방식의 문제점

 

기존의 텍스트-이미지 생성 모델들은 주로 문장을 벡터로 변환한 후, 해당 벡터를 기반으로 이미지를 생성하는 방식이었습니다. 그러나 이 방식은 문장의 의미를 '이해'하기보다는 '단어 수준'에서 일치시키는 경향이 강합니다. 예를 들어, '빨간색 개와 노란 고양이'라는 문장이 주어졌을 때, 모델은 ‘빨강’, ‘개’, ‘노랑’, ‘고양이’와 같은 키워드를 추출해 이미지를 구성합니다. 하지만 복잡한 문장이나 추론이 필요한 문장에서는 성능이 크게 떨어집니다.

 

또한, 대부분의 모델은 이미지 생성 과정을 단순히 순차적인 픽셀이나 패치 단위로 처리하기 때문에 전체적인 장면의 일관성이나 구조적인 계획이 부족합니다. 이로 인해 복잡하거나 구체적인 장면을 정확하게 그리는 데 어려움을 겪습니다.

 

2) 접근 방식

 

이 논문에서는 문제 해결을 위해 두 단계의 사고 과정을 제안합니다:

  • Semantic-level CoT (의미 수준 사고 흐름) : 이미지 생성 전, 입력된 문장을 기반으로 장면에 대한 고수준의 텍스트 설명을 생성합니다. 이 단계는 마치 화가가 그림을 그리기 전, 어떤 장면을 그릴지 머릿속에서 구상하는 단계와 유사합니다. 여기서 모델은 등장인물, 위치, 배경 등을 계획합니다.
  • Token-level CoT (토큰 수준 사고 흐름) : Semantic-level CoT를 기반으로 이미지가 패치 단위로 생성됩니다. 각 패치는 이전 패치들과의 관계를 고려하여 생성되며, 이는 실제 화가가 캔버스를 채워 나가는 과정과 비슷합니다. 이 단계에서는 디테일과 일관성이 핵심입니다.

그림 : 이미지 생성과 이해에서의 Chain of Thought (CoT)

 

 

이러한 두 단계의 사고 과정을 BiCoT-GRPO라는 새로운 강화학습 기법으로 통합하여 동시에 최적화합니다. 이 접근은 기존 방식처럼 단순히 출력만 잘 맞추는 것이 아니라, 과정 전체에 대한 사고력까지 고려하여 이미지의 의미와 품질을 함께 높입니다.

 

3) 세부 적용 기술

  • Semantic-level CoT
    이 단계는 자연어 문장을 해석하여 이미지의 전체 구조를 설계하는 역할을 합니다. 예를 들어 '네덜란드에서 재배되는 꽃'이라는 문장이 주어졌을 때, 단순히 '꽃'을 그리는 것이 아니라 문맥을 이해해 '튤립'이라는 구체적인 결과를 유추합니다. 이를 위해 모델은 다양한 지식을 바탕으로 추론을 수행하며, 이를 텍스트 형태로 정리한 후 다음 단계에 전달합니다.
  • Token-level CoT
    이미지 생성은 '패치'라는 작은 단위의 그림으로 진행되며, 이전에 생성된 패치들과의 일관성을 유지해야 합니다. 이 과정을 사고의 흐름으로 간주하고 최적화하여 더 부드럽고 현실감 있는 이미지를 생성합니다. 이 단계는 로컬 디테일(예: 털의 질감, 물체의 경계선 등)에 집중하며, 전체 장면의 시각적 품질을 높이는 데 중요합니다.

그림 : Semantic-level CoT과 Token-level CoT의 실제 예시 시각화 설명

 

  • BiCoT-GRPO (강화학습 프레임워크)
    두 수준의 CoT를 동시에 학습하기 위해 '그룹 상대 정책 최적화(Group Relative Policy Optimization)' 방식의 강화학습을 적용합니다. 이 방식은 여러 개의 이미지를 동시에 생성하고, 이를 다양한 평가 기준(보상 모델)으로 평가하여 가장 우수한 결과를 추구합니다. 주요 보상 모델은 다음과 같습니다.
    • Human Preference Model: 사람의 미적 선호도를 시뮬레이션하는 모델
    • Object Detector: 객체가 올바르게 존재하는지를 판단
    • VQA 모델: 이미지에 대한 질문을 통해 속성, 존재 여부 등을 확인
    • Output Reward Model: 이미지와 텍스트의 정합성 평가

그림 : BiCoT-GRPO 프레임워크 구조 (모델이 어떻게 2단계 CoT를 학습하는지를 설명)

 


위의 그림은 BiCoT-GRPO 프레임워크의 전체 구조를 보여주고 있습니다. 이는 두 단계로 나눠집니다.

  • 1단계 : 텍스트 프롬프트 → 의미적 설명, 즉 모델이 어떤 장면을 그릴지 상상 (semantic-level CoT 생성)
    2단계 : 생성된 의미적 설명 + 프롬프트를 기반으로 실제 이미지 생성 시작 (Token-level CoT 생성)
  • 마지막으로 생성된 이미지는 여러 개의 시각 전문가에 의해 평가되고, 그룹 단위로 보상이 계산되어 모델을 학습시킵니다.

 

그림 : 보상 평가 모델 구조

 

 

 

4) 제약사항

 

이 논문에서 제안한 모델은 복잡한 평가 시스템과 보상 모델의 조합에 의존하고 있어, 학습 비용이 매우 높고 시스템 구성도 복잡합니다. 또한, 일반적인 강화학습보다 훨씬 더 많은 데이터와 연산 자원이 필요합니다. 다만 이 부분은 추후 경량화 기법이나 보상 모델의 단순화를 통해 개선 가능성이 있습니다.


 

T2I-R1은 기존의 텍스트-이미지 생성 모델이 가지던 한계를 뛰어넘기 위해, ‘생각의 흐름’을 두 단계로 나누어 도입한 혁신적인 접근입니다. 이미지 생성이라는 복합적인 작업을 의미적 계획(Semantic-level CoT)세부 묘사(Token-level CoT)로 분리함으로써, 사용자의 의도를 더 정밀하게 반영하고, 더 현실적이며 정합성 있는 이미지를 생성할 수 있게 됩니다.

 

이 모델은 강화학습을 기반으로 두 수준의 사고를 동시에 훈련시키는 BiCoT-GRPO라는 학습 전략을 통해, 기존 SOTA(State of the Art) 모델인 FLUX.1보다도 높은 성능을 달성했습니다. 특히, 복잡한 문장 구조나 추론이 필요한 프롬프트에 대해 더 높은 정합성을 보여주며, 이미지의 다양성과 미적 품질까지 동시에 개선할 수 있다는 점에서 실용적인 가치를 지닙니다.

 

향후에는 학습 효율성을 높이기 위한 경량화 연구나, 보상 모델 단순화 등이 진행된다면 더 많은 실제 응용 분야에서도 사용될 수 있을 것입니다. 예를 들어, 창작 디자인, 게임 아트, 광고 시각화, 교육 콘텐츠 제작 등에서 높은 수준의 자동 이미지 생성이 가능해질 것으로 기대됩니다.


참고자료

  • 논문) T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT (링크)
  • 코드) T2I-R1의 Github 저장소 (링크)

 


Q&A

 

Q. Semantic-level CoT는 왜 필요한가요?

Semantic-level CoT는 전체 이미지의 전반적인 구성과 개체 배치를 계획하기 위한 단계입니다. 단순한 키워드 매칭으로는 파악하기 어려운 복잡한 프롬프트를 해석하고, 이에 대한 고차원적 이해를 돕습니다.

 

Q. Token-level CoT는 어떤 역할을 하나요?

이미지를 패치 단위로 생성할 때, 각 패치가 앞선 내용과 자연스럽게 연결되도록 도와줍니다. 이 과정은 디테일의 일관성과 시각적 품질을 보장하는 핵심적인 요소입니다.

 

Q. 왜 여러 개의 보상 모델을 사용하나요?

이미지 품질은 단일 기준으로 평가하기 어렵기 때문에, 사람의 선호도, 객체 인식, 질문 응답, 정합성 평가 등 다양한 시각적 전문가 모델을 조합해 더 정밀하고 신뢰성 높은 평가를 진행합니다.