AI 탐구노트

TransPixar : 투명한 비디오 생성의 새로운 시대 본문

AI 기술

TransPixar : 투명한 비디오 생성의 새로운 시대

42morrow 2025. 1. 12. 10:20

1. 서론

영상 콘텐츠는 오늘날의 디지털 환경에서 광고, 교육, 엔터테인먼트와 같은 다양한 분야에 걸쳐 중요한 역할을 하고 있습니다. 특히 텍스트를 입력으로 사용해 동영상을 만드는 기술은 복잡한 영상 편집 없이도 창의적인 결과물을 얻을 수 있는 혁신적인 방법으로 환영받고 있죠. 얼마 전까지만 해도 전문가의 영역이라고 여겨지던 분야가 이제는 학생들도 약간의 창의성과 프롬프트만으로 영상을 만들어내는 일반인의 영역이 되고 있습니다. 그것도 아주아주 빨리!

 

하지만 여기에는 중요한 제약이 있습니다. 현재 대부분의 모델은 투명한 효과(예: 유리나 연기처럼 배경이 보이는 효과)를 처리할 수 없습니다. 투명도를 처리하려면 RGBA라는 특별한 비디오 형식이 필요합니다. 여기서 A는 "알파 채널"을 뜻하며, 이 채널이 투명도를 담당합니다. 하지만 RGBA 비디오 데이터는 매우 부족하고, 기존 모델로 이를 구현하기도 어렵습니다.  이러한 투명성은 게임, 가상현실(VR), 증강현실(AR) 등 인터랙티브 콘텐츠 제작에서 필수적이지만 RGBA 데이터의 부족과 기존 모델의 한계로 인해 이 작업은 기술적으로 복잡하고 데이터 집약적이 된 것입니다. 

 

TransPixar는 이런 문제를 해결하기 위해 개발되었습니다. 이 기술은 사전 학습된 기존 RGB(일반 비디오) 생성 모델을 확장하여 투명한 효과를 지원하며, 제한된 데이터에서도 고품질 결과를 제공합니다.

 

그림 : TransPixar로 생성한 투명 효과가 적용된 영상 생성 예시


2. 본론

2.1 기존 방식의 문제점

기존의 텍스트-비디오 생성 모델은 RGB 데이터만을 처리하는 데 최적화되어 있습니다. RGBA 비디오 생성을 위해 알파 채널을 추가로 예측하거나 기존 RGB 영상을 후처리하는 접근 방식투명성 표현이 부정확하거나 한정된 객체 유형에만 적용 가능하다는 문제가 있었습니다. 또한, RGBA 데이터셋이 매우 부족(약 484개 영상)하여 다양한 객체와 움직임을 다루기 어려웠습니다.

 

2.2 TransPixar의 접근 방식

 

TransPixar는 기존 RGB 모델에 알파 토큰을 추가했습니다. 이를 통해 텍스트, RGB, 알파 채널 간의 상호작용을 강화하며, 특히 RGB-알파 주의 메커니즘이 중요한 역할을 합니다. 중요한 점은 RGB와 알파 간의 관계를 모델이 학습하면서 더 자연스럽게 투명도를 표현한다는 것입니다.

 

 

그림 : TransPixar의 파이프라인

 

TransPixar는 기존 RGB 모델인 Diffusion Transformer(DiT) 기반 텍스트-비디오 모델을 활용하면서도 알파 채널을 포함한 RGBA 비디오를 생성합니다. 이 모델은 다음과 같은 주요 기술을 활용합니다.

  • 알파 채널 토큰 추가
    모델에 텍스트 토큰과 RGB 토큰 뒤에 알파 채널을 위한 토큰을 추가합니다. 이를 통해 투명도를 모델이 학습할 수 있도록 설계했습니다.
  • LoRA 기반 세부 조정
    기존 RGB 모델의 성능을 유지하면서, 알파 토큰의 QKV 공간을 조정하여 알파 채널을 효율적으로 학습할 수 있도록 특정 부분만 조정했습니다.

 

2.3 적용된 핵심 기술

 

 

  • 알파 토큰 및 위치 임베딩
    RGBA 비디오 생성을 위해 알파 채널 토큰에 별도의 위치 임베딩을 적용하면서, RGB와 알파 채널에 동일한 위치 정보를 부여했습니다. 결과적으로 RGB와 알파가 정확히 같은 위치에서 일관된 데이터를 생성할 수 있게 되는 동시에 학습 속도를 높이는 효과를 거뒀습니다. 
    * 위치 임베딩은 모델이 입력된 데이터의 '위치 정보'를 이해하도록 돕는 기술
  • 3x3 그룹화된 주의 메커니즘 (grouped attention mechanism)
    텍스트, RGB, 알파 토큰 간의 상호작용을 최적화하기 위해 주의 메커니즘을, 텍스트-RGB / RGB-알파 / 텍스트-알파 간의 세 가지로 나누었습니다. 특히, RGB-알파 간 주의는 알파 채널 정보로 RGB 채널을 개선하는 데 필수적입니다.* 주의 메커니즘(attention)은 모델이 입력된 정보에서 중요한 부분에 집중하도록 돕는 기술
  • 학습 데이터 처리
    제한된 RGBA 데이터셋을 최대한 활용하기 위해 컬러 제거 및 배경 블러링 등의 전처리 과정을 적용했습니다.

 


3. 결론

TransPixar는 텍스트를 입력으로 받아 투명 효과를 포함한 RGBA 비디오를 생성하는 혁신적인 기술입니다. 기존의 복잡한 작업 없이도 자연스러운 투명도를 표현할 수 있으며, 특히 VFX, 게임, VR/AR 등에서 중요한 역할을 할 것으로 기대됩니다. 

특히나 이 연구가 Adobe와 관련되어 있다는 점에 눈길이 갔습니다. 영상 생성 모델들이 많이 나오고 있고 품질 또한 급격하게 좋아지고 있는 상황에서 또 다른 측면의 연구가 나왔고 이 모든 것들이 Adobe가 가장 강점을 가지고 있던 이미지, 영상 편집 영역이라는 것 때문이죠. 앞으로 어쩌면 영상 생성 모델을 통해 배경이 투명한 영상들의 컴포넌트들을 대량으로 만들어내서 Asset처럼 활용하는 시대가 곧 올 수도 있을 것 같습니다. 


4. 참고자료

  • 프로젝트) TransPixar 프로젝트 사이트 (링크)
  • 논문) TransPixar: Advancing Text-to-Video Generation with Transparency (링크)
  • 코드) 깃헙 레포지토르 (링크)
  • 데모) HuggingFace (링크)

 


5. Q&A

Q. TransPixar의 주요 기술적 차별점은 무엇인가요?
텍스트를 입력으로 받아 RGB와 알파 채널을 동시에 생성할 수 있으며, 제한된 데이터에서도 자연스러운 투명 효과를 표현합니다.

 

Q. 이 모델은 어떤 응용 분야에 적합한가요?
영화 및 광고의 특수 효과, 게임의 캐릭터 생성, 가상현실(VR) 및 증강현실(AR) 콘텐츠 제작 등 다양한 분야에 적용 가능합니다.

 

Q. 이 모델의 제약사항은 무엇인가요?
계산 비용이 높고 데이터셋이 제한적이지만, 이를 개선하면 더욱 효율적이고 정교한 결과를 얻을 수 있습니다.