AI 탐구노트

ART (익명 영역 변환기) : 쉽고 빠른 다층 이미지를 생성하는 기법 본문

AI 기술

ART (익명 영역 변환기) : 쉽고 빠른 다층 이미지를 생성하는 기법

42morrow 2025. 3. 2. 10:31

 

 

인공지능(AI) 기반의 이미지 생성 기술은 최근 몇 년간 급격한 발전을 이루어왔다. 특히, 텍스트 기반 이미지 생성 모델은 단일 이미지를 생성하는 능력이 뛰어나지만, 개별 요소를 독립적으로 조작하거나 수정하는 것은 여전히 어려운 문제로 남아 있습니다. 

 

전통적인 이미지 생성 모델은 하나의 통합된 이미지를 생성하는 데 초점을 맞추고 있으며, 사용자가 특정 부분을 변경하거나 제거하는 것이 쉽지 않죠. 이러한 문제를 해결하기 위해 다층(multi-layer) 이미지 생성 기법이 연구되고 있지만, 기존 방식은 각 레이어(layer)를 개별적으로 정의해야 하며, 이는 작업량이 많고 비효율적인 과정이 될 수 있습니다. 

 

Anonymous Region Transformer(ART) 라는 새로운 접근 방식은, 사용자 개입을 최소화하면서 다층 투명 이미지(transparent image)를 생성하는 방식을 제안하고 있습니다. ART는 익명 영역 레이아웃(Anonymous Region Layout, ARL) 을 활용하여 특정한 개별 객체를 지정하는 대신, 생성 모델이 자체적으로 의미를 학습하고 적절한 객체를 배치할 수 있도록 하며, 이러한 방식은 생성 속도를 크게 향상시키면서도 레이어 간의 일관성을 유지할 수 있다는 장점을 제공합니다. 

 

그림 : ART를 이용해 생성된 다층 레이어의 결과물 예시

 

 


기존 다층 이미지 생성 방식의 한계

전통적인 다층 이미지 생성 방식은 'Semantic Layout' 을 기반으로 합니다. 즉, 사용자는 생성될 이미지의 각 영역(region)에 대해 사전에 구체적인 내용을 명시해야 합니다. 이러한 방식에는 다음과 같은 단점이 있습니다.

  • 작업량 증가 : 각 영역에 대한 세부 정보를 일일이 기입해야 하므로, 특히 많은 레이어를 포함하는 이미지(예: 50개 이상)를 만들 때 부담이 큽니다.
  • 일관성 부족 : 개별적으로 생성된 레이어들이 서로 조화를 이루지 못하는 경우가 많으며, 이는 최종 이미지의 품질 저하로 이어질 수 있습니다. 
  • 계산량 증가 : 모든 레이어에 대해 개별적인 어텐션(attention) 연산을 수행해야 하므로 연산 비용이 높아집니다. 

 

ART의 접근 방식

 

ART 모델은 기존의 Semantic Layout 방식과 달리 Anonymous Region Layout(ARL) 을 도입합니다. ARL은 이미지에서 중요한 영역을 사전에 정의하지만, 해당 영역에 특정한 객체를 직접 명시하지 않고 대신 생성 모델이 Schema Theory(도식 이론) 를 기반으로 어떤 객체를 생성해야 할지 스스로 학습 하도록 합니다.

 

이를 통해

  • 사용자는 전체적인 구조만 정의하고, 세부 사항은 모델이 자동으로 결정 할 수 있고,
  • 모델의 학습 과정에서 레이어 간의 일관성이 자연스럽게 유지 되며, 더 적은 연산 비용 으로 높은 품질의 결과를 얻을 수 있습니다.

그림 : Semantic Layout 과 Anonymous Region Layout 비교

 

 

위의 그림은 기존 방식(Semantic Layout)과 새로운 방식(Anonymous Region Layout, 익명 영역 레이아웃) 의 차이를 보여줍니다. 간단히 요약하면 기존 방식은 사람이 일일이 지정해야 했지만 새로운 방식은 AI가 알아서 해 준다는 것입니다. 

 

 

ART의 세부 적용 기술

 

ART는 크게 다음의 세 가지 주요 요소로 구성됩니다. 

  • Multi-Layer Transparent Image Autoencoder
  • Anonymous Region Transformer
  • Anonymous Region Layout Planner

 

ART 모델은 이 세가지 주요 요소를 이용해 배경 + 여러 개의 투명한 레이어 를 동시에 만들고, 사용자가 직접 세부 사항을 지정하지 않아도 AI가 알아서 배치 해주게 됩니다. 

 

Multi-Layer Transparent Image Autoencoder

  • 이미지의 배경과 여러 개의 투명 레이어를 함께 인코딩(encoding)하고, 이를 다시 디코딩(decoding)하여 고품질의 다층 이미지를 생성하는 모델입니다.
  • 개별 레이어의 RGBA 값을 직접 인코딩하는 방식으로, 투명도(Alpha Channel)까지 반영할 수 있습니다.

그림 : Multi-Layer Transparent Image Autoencoder

 

Anonymous Region Transformer

  • 기존의 텍스트-이미지 변환 모델을 확장하여, 다층 이미지 생성을 위한 특수한 어텐션(attention) 기법 을 적용한 변형된 Transformer 모델입니다. 
  • 3D RoPE(Position Embedding) 기법 을 활용하여, 레이어 간의 위치 정보를 보다 효과적으로 반영할 수 있도록 설계되었습니다.
  • 모든 레이어를 동시에 생성하여 조화로운 이미지 생성이 가능 하며, 속도가 기존 대비 12배 이상 빠릅니다.

그림 : Anonymous Region Transformer 설명

Anonymous Region Layout Planner

  • 사용자가 제공한 텍스트 입력을 기반으로 익명 영역 레이아웃을 예측하는 모듈입니다.
  • LLM (Large Language Model) 기반의 레이아웃 생성기 를 사용하여, 사용자의 개입 없이 자동으로 레이아웃을 생성할 수 수 있습니다. 
  • 이를 통해 대량의 데이터셋을 활용하여 보다 정밀한 다층 이미지 생성이 가능합니다.

그림 : ART 모델의 익명 영역 시각화 (Attention Map)

 

 

ART의 제약사항

ART 모델은 높은 품질의 다층 이미지를 생성할 수 있지만, 다음과 같은 몇 가지 제약이 있습니다.

  • 레이어의 수가 증가할수록 품질이 저하될 가능성 : 
    50개 이상의 레이어를 생성할 경우 일부 세부 요소에서 일관성이 떨어질 수 있음
  • 특정한 사전 정의된 스타일에는 부적합할 수 있음 : 
    자동으로 객체를 할당하는 방식이므로, 정확한 세부 제어가 필요한 사용자의 요구사항을 완벽하게 충족하기 어려울 수 있음

3. 결론

ART(Anonymous Region Transformer) 모델은 다층 투명 이미지 생성의 새로운 패러다임을 제시하고 있습니다. 

  • 기존의 Semantic Layout 방식보다 훨씬 효율적이고 사용자 친화적인 생성 방식 을 제공합니다.
  • 익명 영역 레이아웃(ARL) 을 활용하여 생성 모델이 직접 적절한 객체를 결정함으로써, 레이어 간의 일관성이 뛰어나고 생성 속도가 향상 됩니다. 
  • Multi-Layer Autoencoder와 3D RoPE 기법 을 활용하여 다층 투명 이미지를 효과적으로 인코딩 및 디코딩할 수 있습니다. 

 

이 기술은 디지털 아트, 그래픽 디자인, AR/VR 콘텐츠 생성 등 다양한 분야에서 활용될 수 있는 잠재력 을 갖추고 있으며, 향후 더욱 발전할 가능성이 클 것으로 전망됩니다. 


참고자료

  • 논문) ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation (링크
  • ART 프로젝트 사이트 (링크)
  • 코드) ART 깃헙 레포지토리 (링크
  • 데모) 개발자 데모 사이트 (링크)

Q&A

Q. ART 모델은 기존 텍스트-이미지 모델과 무엇이 다른가요?

기존 모델은 하나의 단일 이미지만 생성할 수 있지만, ART는 다층 투명 이미지를 생성할 수 있도록 설계되었으며, 익명 영역 레이아웃을 활용하여 보다 효율적인 생성을 가능하게 합니다.

 

Q. 익명 영역 레이아웃(ARL)이 모델의 성능에 어떤 영향을 미치나요?

ARL은 사용자가 일일이 객체를 지정할 필요 없이 모델이 자체적으로 학습하여 적절한 객체를 배치할 수 있도록 돕습니다. 이를 통해 레이어 간의 일관성이 향상 되고, 생성 속도가 빨라지는 효과 가 있습니다.

 

Q. ART 모델을 활용하면 어떤 분야에서 응용할 수 있나요?

디지털 콘텐츠 제작, 그래픽 디자인, 애니메이션, AR/VR, 게임 산업 등 레이어 기반 이미지 생성이 필요한 다양한 분야에서 활용 가능 합니다.