AI 탐구노트

CLASI 본문

AI 기술

CLASI

42morrow 2024. 8. 9. 22:35

CLASI (Cross Language Agent - Simultaneous Interpretation)는 대규모 언어 모델(LLM)을 활용한 동시 음성 번역 시스템니다. 사람, 즉 동시통역사가 번역하는 수준의 품질을 목표로 합니다. '동시'+'통역' 영역이라 번역의 정확성과 지연 시간 둘 다 혹은 이들 간의 균형을 잡기 위해 다양한 기법을 사용하고 있습니다. 구조적으로는 

LLM을 기반으로 한 인코더-조건부 아키텍처로, 음성 입력을 처리하고 외부 지식 및 이전 번역 문맥을 활용하여 번역을 생성합니다. 

 

이 시스템은 다음과 같은 특징을 가지고 있습니다. 

  • 데이터 기반 읽기-쓰기 전략
    전문통역사의 문장 분할 방식을 학습하여 번역 품질과 지연 시간 간의 균형을 유지합니다.
  • 다중 모달 검색 모듈(MM-RAG)
    어려운 분야의 용어의 번역을 위해 입력 음성, 역사적 문맥, 외부 지식 등을 활용하여 문맥 학습을 수행
  • 유효 정보 비율(Valid Information Proportion, VIP) 
    동시 음성 번역(SiST)의 성능을 정확히 측정하기 위한 평가 지표 
  • 다단계 학습 과정
    사전 학습, 중간 지속 학습, 인간 주석 데이터로 미세 조정된 학습 단계를 통해 소량의 인간 주석 데이터를 사용해 효율적 학습

성능 비교를 보면 기존 대비 상당한 향상이 있었음을 볼 수 있습니다. 수치 비교에서는 중국어와 영어 간의 번역 성능을 예시로 보여주는데 VIP(Valid Information Proportion)라는 인간 평가 지표값에서는 2배 가까운 점수로 상당한 성능 향상이 있음을 보여줍니다. 중국어-영어 및 영어-중국어 번역 방향에서 CLASI vs 기존 시스템의 VIP값은 각각 81.3% (vs 35.4%), 78.0% (vs 41.6%)입니다. 

 

참고) 프로젝트, 논문

 

 

사진 : CLASI 프레임워크 개요
사진 : CCLASI agent의 아키텍처

 

'AI 기술' 카테고리의 다른 글

Mobile-Agent-V2  (0) 2024.08.13
VGGHeads  (0) 2024.08.12
SF3D  (0) 2024.08.08
TAPTR  (0) 2024.08.08
Flux.1  (0) 2024.08.08