일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 시간적 일관성
- 생성형 AI
- 메타
- LORA
- AI 기술
- 뉴럴링크
- 이미지 편집
- ubuntu
- 우분투
- ChatGPT
- 가상환경
- tts
- 서보모터
- 오픈AI
- LLM
- 인공지능
- 일론 머스크
- TRANSFORMER
- javascript
- 아두이노
- 확산 모델
- 딥마인드
- PYTHON
- 오블완
- 멀티모달
- AI
- OpenAI
- 티스토리챌린지
- 트랜스포머
- ControlNet
- Today
- Total
AI 탐구노트
Sketch Video : 영상에서 스케치를 생성하는 프레임워크 본문
동영상의 개체를 추상적으로 표현(스케치로)하는 최적화 기반 프레임워크
SketchVideo는 SVG 형식의 스케치 비디오를 생성해 영상 속의 개체를 추상적으로 표현하는 최적화 기반 프레임워크입니다.
일반적으로 생성형 AI를 이용해서 하는 작업을 생각해 보면, 손으로 그린 스케치를 입력으로 하고 이를 기반으로 이미지나 영상을 생성하는 것이 떠오를 겁니다. 하지만 완전히 반대되는 작업이 필요한 경우도 있겠죠. 즉, 영상에서 스케치를 생성해내는 그런 작업 말입니다.
예전에 소개된 스케치 생성 모델들의 경우, 대상이 이미지 to 스케치인 경우가 대부분이었습니다. 비디오 영상을 대상으로 하기에는
프레임 간 일관성을 보장해야하고 시간적 불안정성도 해결해야 하고 영상 전체를 꿰뚫는 추상적 표현도 생성해야 하는 어려움이 있었기 때문에 적용하는데는 어려움이 많았습니다.
SketchVideo에서는 비디오의 각 프레임을 비지어 곡선으로 표현하는 스케치 비디오 생성 방법을 제안했습니다. 이 방법은 사전 훈련된 Neural Layered Atlas (NLA) 네트워크를 활용하여 프레임 간 일관성을 유지하고, CLIP 기반의 의미론적 손실과 일관성 손실을 통해 스케치의 품질을 최적화합니다.
위 그림은 제안된 프레임워크의 파이프라인입니다. 먼저, NLA 네트워크를 학습시켜 비디오를 레이어 아틀라스로 분해한 후, 비디오의 각 프레임에서 생성된 비지어 곡선의 위치를 최적화합니다. 이를 통해 프레임 간 일관성을 유지하면서도 스케치의 추상성을 확보합니다.
SketchVideo 프레임워크의 특징을 정리해 보면 다음과 같습니다.
- 비지어 곡선 : 비디오의 각 프레임을 다수의 비지어 곡선으로 표현하여 추상적인 스케치를 생성합니다.
- 프레임 간 일관성 유지 : NLA 네트워크를 활용하여 비디오의 시간적 일관성을 확보합니다.
- 의미론적 손실 : CLIP 모델의 특징을 사용하여 스케치가 원본 비디오와 의미적으로 일치하도록 최적화합니다.
- 확장 가능성 : 생성된 스케치 비디오는 SVG 형식이므로 크기 조정 및 색상 변경과 같은 다양한 편집이 가능합니다.
'AI 기술' 카테고리의 다른 글
Emu3 : 멀티모달 생성 및 인식하는 단일 트랜스포머모델 (2) | 2024.10.03 |
---|---|
PhysGen : 물리법칙을 이해하는 이미지-비디오 생성 모델 (2) | 2024.10.02 |
Firecrawl : 웹사이트 데이터 크롤링 API 서비스 (1) | 2024.10.01 |
LARS : 로컬 LLM으로 사용자 문서를 분석하는 애플리케이션 (1) | 2024.09.30 |
FiT3D : 3D 정보에 기반한 2D 모델 미세조정 기법 (0) | 2024.09.30 |