AI 탐구노트

TokenFlow : 시간적 일관성있는 자연스런 영상 생성 모델 본문

AI 기술

TokenFlow : 시간적 일관성있는 자연스런 영상 생성 모델

42morrow 2024. 8. 29. 22:59
생성AI를 이용한 영상 편집에서의 시간적인 일관성 문제를 해결하는 기술

 

생성AI 모델을 이용해서 주어진 prompt나 입력 이미지에서 영상을 만들어내는 모델들이 속속 소개되고 있습니다. 이미지 생성에서 이제는 비디오 영상 생성으로 발전하고 있죠. 하지만 대부분 생성되는 비디오 영상은 각 프레임 별로 이전과 이후 간의 일관성이 보존되지 않는 경우가 많고 결과적으로 중간중간 튀어 버리거나 전혀 시간이 지나면서 점점 이전과는 전혀 다른 영상으로 바뀌게 되죠.

 

TokenFlow는 이렇게 생성AI를 이용한 영상 편집에서의 시간적인 일관성 문제를 해결하는 기술입니다. 즉, 입력 영상을 기반으로 주어진 텍스트 프롬프트를 적용해서 비디오 영상이 만들어질 때, 그 전의 다른 모델들 대비해서 훨씬 자연스런 영상을 얻을 수 있습니다. 게다가 별도의 추가 학습이나 미세조정이 필요치 않다는 장점도 있으며 기존의 Text2Image 방식들과 함께 이용될 수 있다고 합니다.

 

사진: TokenFlow 모델 아키텍처

 

 

사진 : 데모에서 샘플영상에 프롬프트만 바꿔서 생성해 본 예시

 

 

 

참고) 논문소개깃헙데모