AI 탐구노트

Neural Path Representation을 활용한 Text-to-Vector 생성 본문

AI 기술

Neural Path Representation을 활용한 Text-to-Vector 생성

42morrow 2025. 3. 22. 14:10

 

디지털 디자인에서 벡터 그래픽(Vector Graphics)은 해상도 독립성과 계층적 구조 덕분에 널리 사용됩니다. 특히, 스케일러블 벡터 그래픽(SVG)은 아이콘, 일러스트레이션, UI 디자인 등에서 필수적인 역할을 합니다. 하지만 고품질 벡터 그래픽을 제작하는 과정은 높은 디자인 전문성과 시간이 요구되며, 초보자에게는 접근이 어려운 작업이 될 수 있습니다.

 

최근 텍스트 기반 이미지 생성(Text-to-Image, T2I) 모델이 큰 발전을 이루며 텍스트만 입력하면 자동으로 이미지를 생성하는 기술이 등장했습니다. 이를 응용하여 텍스트를 벡터 그래픽으로 변환하는 Text-to-Vector (T2V) 연구도 활발히 진행되고 있습니다. 하지만 기존의 T2V 기술은 벡터 경로(Vector Path)를 직접 최적화하는 방식이 주류를 이루며, 이로 인해 경로가 겹치거나 왜곡되는 등의 문제가 발생하는 경우가 많았습니다.

 

이러한 한계를 극복하기 위해 신경망 기반 경로 표현(Neural Path Representation, NPR) 방식이 제안되었습니다. NPR은 이중 브랜치 변분 오토인코더(Dual-branch Variational Autoencoder, VAE) 를 활용하여 벡터 경로의 잠재 공간을 학습하고, 이를 기반으로 2단계 최적화 기법을 적용하여 더욱 정교하고 자연스러운 벡터 그래픽을 생성할 수 있도록 하였습니다.

 

그림 : Text-to-Vector 프레임워크로 생성된 벡터 그래픽 예제


기존 Text to Vector 방식의 제약사항

기존의 Text-to-Vector(T2V) 접근 방식은 주로 다음과 같은 두 가지 방식으로 진행되었습니다.

  • 이미지 벡터화(Vectorization of T2I Images)
    • 텍스트를 입력하여 이미지를 생성한 후, 이를 벡터화하는 방식입니다.
    • 하지만 일반적인 T2I 모델은 복잡한 색상과 질감을 포함한 픽셀 기반 이미지를 생성하므로, 이를 벡터화할 때 지나치게 세밀한 요소가 포함되거나 불필요한 경로가 많아지는 문제가 발생합니다.
  • CLIP 기반 최적화 (CLIP-Guided Optimization)
    • 벡터 그래픽을 직접 생성하는 방식으로, CLIP 모델을 활용하여 벡터 경로를 조정합니다.
    • 하지만 벡터 경로의 제약이 부족하여, 경로가 뒤엉키거나 구조적으로 불안정한 결과물이 생성될 가능성이 큽니다.

NPR (Neural Path Representation) 

 

1) 접근 방식

신경망 기반 벡터 경로 표현(Neural Path Representation, NPR) 을 도입하여 벡터 그래픽을 보다 자연스럽고 정교하게 생성할 수 있도록 했습니다. 이를 위해 이중 브랜치 VAE(Dual-branch Variational Autoencoder) 를 활용합니다.

  • 이중 브랜치 VAE (Dual-branch Variational Autoencoder
    • 벡터 그래픽의 경로를 학습하기 위해 시퀀스(Sequence) 모달리티이미지(Image) 모달리티 두 가지 정보를 함께 사용합니다.
    • 시퀀스 모달리티는 벡터 경로의 기하학적 정보를 유지하도록 도와주고, 이미지 모달리티는 시각적인 특징을 보완합니다.
    • 이를 통해 벡터 그래픽의 경로를 더욱 정교하게 모델링할 수 있습니다.

그림 :

2) 세부 적용 기술

 

1️⃣ Neural Path Representation 학습

  • 벡터 그래픽의 경로는 주로 베지어 곡선(Cubic Bézier Curves) 을 이용해 표현됩니다.
  • 이를 효과적으로 학습하기 위해 이중 브랜치 VAE 를 설계하였으며,
    • 시퀀스 인코더: 벡터 경로의 제어점을 학습하여 기하학적 특성을 반영합니다.
    • 이미지 인코더: 렌더링된 벡터 그래픽을 학습하여 실제적인 형태를 반영합니다.
  • 두 모달리티 정보를 결합하여 경로의 잠재 표현(Path Latent Representation) 을 생성합니다.

2️⃣ 텍스트 기반 경로 최적화 (Text-Driven Neural Path Optimization)

두 단계의 최적화 기법을 적용하여 벡터 그래픽의 품질을 향상시킵니다.

  • 1단계: Variational Score Distillation (VSD) 기반 최적화
    • 기존의 Score Distillation Sampling(SDS) 방법은 지나치게 부드럽거나 단조로운 결과를 생성하는 문제가 있었습니다.
    • 이를 해결하기 위해 Variational Score Distillation (VSD) 기법을 활용하여 더 다양하고 자연스러운 벡터 그래픽을 생성할 수 있도록 하였습니다.
  • 2단계: 계층적 벡터 최적화 (Layer-wise Vectorization)
    • 초기 생성된 벡터 그래픽을 더욱 정제하기 위해 경로를 계층적으로 조정하는 과정입니다. 
    • 불필요한 경로를 제거하고, 시각적으로 중요한 요소를 강조하여 더 명확한 구조를 형성합니다.

그림 : 전체 시스템 파이프라인 (NPR의 학습 및 최적화 과정 설명)

 

3) 다양한 응용 사례

 

NPR을 이용하면 아래와 같은 다양한 응용이 가능합니다.

  • 세부 수준 (Level of Detail) 조정
  • 스타일 변경
  • SVG 커스터마이징
  • 이미지에서 SVG 생성 (Image to SVG)
  • SVG 애니메이션

그림 : 스타일 변경 지원

 

그림 : 응용 사례 (좌: SVG 커스터마이징, 우: SVG 애니메이션)

 

4) 제약사항

  • 벡터 그래픽 생성 속도가 다소 느리며, 최적화 과정이 반복적으로 수행되므로 시간이 소요될 수 있습니다.
  • 텍스트 입력이 너무 세밀할 경우, 일부 요소가 생략될 가능성이 있습니다.

NPR(Neural Path Representation)은 Text-to-Vector(T2V) 생성 과정에서 발생하는 기존 방식의 문제점을 해결하기 위해 을 활용한 새로운 접근 방식을 채택했습니다. 그 결과 기존보다 명확한 구조아 부드러운 경로를 생성하고 결과적으로 훨씬 더 정교한 벡터 그래픽을 생성할 수 있게 되었습니다. 

 

앞서 소개했던 다른 벡터 그래픽 생성 모델들과도 차별화 되는 기능들이 많은데, 저는 개인적으로는 SVG 커스터마이징과 SVG 애니메이션을 지원한다는 것에 관심이 갔습니다. 이런 결과물을 쉽게 만들 수 있으면 활용할 곳이 많을 것 같아서죠. 아쉬운 것은 아직 코드 공개가 되어 있지 않아 테스트 해 볼 수 없다는 것이죠. 빨리 오픈해 주시길 바랍니다. 제발~!


참고자료

  • 논문) Text-to-Vector Generation with Neural Path Representation (링크)
  • 코드는 아직 공개되지 않았습니다. 🧐

Q&A

Q. 기존 T2V 방식과 가장 큰 차이점은 무엇인가요?

기존 방식은 벡터 경로를 직접 최적화하여 경로가 겹치거나 비정상적인 모양이 나올 가능성이 높았습니다. 반면, 본 논문의 방식은 신경망을 이용하여 경로의 기하학적 특징을 학습하고 최적화하기 때문에 더 정교한 벡터 그래픽을 생성할 수 있습니다.

 

Q. Neural Path Representation이 어떤 방식으로 학습되나요?

이중 브랜치 VAE를 활용하여 벡터 경로의 시퀀스 정보와 이미지 정보를 동시에 학습하여, 더 명확한 구조와 부드러운 경로를 생성할 수 있도록 합니다.

 

Q. 생성된 벡터 그래픽의 품질을 평가하는 기준은 무엇인가요?

부드러움(Smoothness), 단순성(Simplicity), 계층적 의미 보존(Layer-wise Semantics) 등의 지표를 사용하여 평가합니다.