AI 탐구노트

LITA : 'When'에 대한 Q&A에 강점을 가진 MLLM 본문

카테고리 없음

LITA : 'When'에 대한 Q&A에 강점을 가진 MLLM

42morrow 2024. 8. 23. 11:13
LITA : 시간-위치 파악에 강점을 가진 멀티모달 언어모델

 

최근 이미지나 비디오 영상까지 다루는 MLLM(Multimodal Large Language Model)들이 많이 나오고 있고 그 가운데는 영상의 내용을 이해하고 이를 요약하거나 내용에 대한 답변을 해주는 경우도 있죠. LITA는 이런 모델 가운데 'When'에 대한 질문 답변에 강점을 가진 모델이라고 할 수 있겠습니다.

 

LITA는 상대적 타임프레임을 표현하기 위한 시간 토큰과 정확한 시간 위치 파악을 하기 위해 미세한 시간 해상도 캡처를 위한 SlowFast 토큰(빠른 토큰과 느린 토큰이라는 2가지 유형 고려)을 도입했습니다. 학습 데이터로는 사람들이 주석을 달아 정확한 시간을 나타내는 타임스탬프를 추가하고 이 작업을 훈련하고 평가하기 위한 Reasoning Temporal Localization(RTL)이라는 작업을 적용했습니다. 그 결과 기존의 비디오 LLM 들 대비 높은 성능을 달성할 수 있었다고 합니다.

 

 

사진 : LITA 모델 개요

 

사진 : LITA 적용 결과 예시

 

 

참고) 논문코드