AI 탐구노트

Slicedit 본문

AI 기술

Slicedit

42morrow 2024. 8. 14. 21:31

Slicedit은 기존의 T2I(Text to Image) 확산 모델을 이용해 비디오의 특정 부분을 텍스트 설명에 맞게 자연스럽게 편집하는 새로운 방법입니다. 아시는 바와 같이 최근 나오는 많은 T2I 모델들의 성능은 놀라울 정도입니다. 하지만, 이미지가 아닌 비디오 영상에서는 일부에서 많은 발전이 있긴 했지만 아직도 복잡한 움직임 처리 등에서 어려움이 있습니다.

 

Slicedit은 자연 비디오의 시공간 슬라이스가 자연 이미지와 유사한 특성을 지닌다는 점에 착안해, 기존 T2I 확산 모델을 시공간 슬라이스에 적용하는 식으로 접근합니다. 이를 통해 비디오의 구조와 움직임을 유지하면서도 입력되는 텍스트에 맞게 비디오를 편집할 수 있게 됩니다. Slicedit은 비디오의 특정 시점에서 노이즈 볼륨과 어텐션맵을 추출하고, 이를 기반으로 확산모델을 적용해 비디오를 편집하며 이는 기존의 비디오 편집 기법 대비 높은 성능을 보입니다.

 

Slicedit의 특징으로는 다음과 같은 것이 있습니다.

  • Spatiotemporal Slices: Slicedit은 비디오의 공간-시간적 슬라이스를 활용하여 비디오를 처리합니다. 이는 비디오의 특정 시점에서 잘라낸 이미지를 기반으로 편집을 수행할 수 있게 하며, 결과적으로 텍스트 기반의 수정 사항이 비디오 전반에 걸쳐 일관되게 반영됩니다.
  • 확장된 주의 메커니즘(Extended Attention): 모델은 비디오의 여러 프레임을 동시에 처리할 수 있도록 주의 메커니즘을 확장하여 적용합니다. 이를 통해, 비디오의 특정 구간을 변경하더라도, 다른 구간에 대한 영향 없이 일관성을 유지할 수 있습니다.
  • 제로샷 편집(Zero-Shot Editing): 별도의 추가 훈련 없이 기존의 T2I 모델을 비디오 편집에 활용할 수 있다는 것이 Slicedit의 중요한 장점이며 비디오 영상에서 돌발적인 움직임이 나오더라도 일관된 편집 결과를 제공합니다. 

 

 

참고) 프로젝트논문코드

 

사진 : Slicedit 모델 개요

'AI 기술' 카테고리의 다른 글

MatMul-free Language Model : 행렬곱을 제거한 LLM  (0) 2024.08.15
CTRL-Adapter  (0) 2024.08.14
Octopus v2  (0) 2024.08.14
V-Express : 다양한 제어신호가 반영된 초상화 영상 생성 모델  (0) 2024.08.14
Tender  (0) 2024.08.14