Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- LORA
- ubuntu
- 딥마인드
- 이미지 편집
- 오픈AI
- 확산 모델
- 가상환경
- 트랜스포머
- 일론 머스크
- javascript
- 우분투
- ChatGPT
- ControlNet
- 시간적 일관성
- AI
- 메타
- PYTHON
- 서보모터
- 아두이노
- TRANSFORMER
- 티스토리챌린지
- tts
- 인공지능
- 뉴럴링크
- 멀티모달
- OpenAI
- 오블완
- 생성형 AI
- AI 기술
- LLM
Archives
- Today
- Total
AI 탐구노트
CLASI 본문
CLASI (Cross Language Agent - Simultaneous Interpretation)는 대규모 언어 모델(LLM)을 활용한 동시 음성 번역 시스템입니다. 사람, 즉 동시통역사가 번역하는 수준의 품질을 목표로 합니다. '동시'+'통역' 영역이라 번역의 정확성과 지연 시간 둘 다 혹은 이들 간의 균형을 잡기 위해 다양한 기법을 사용하고 있습니다. 구조적으로는
LLM을 기반으로 한 인코더-조건부 아키텍처로, 음성 입력을 처리하고 외부 지식 및 이전 번역 문맥을 활용하여 번역을 생성합니다.
이 시스템은 다음과 같은 특징을 가지고 있습니다.
- 데이터 기반 읽기-쓰기 전략
전문통역사의 문장 분할 방식을 학습하여 번역 품질과 지연 시간 간의 균형을 유지합니다. - 다중 모달 검색 모듈(MM-RAG)
어려운 분야의 용어의 번역을 위해 입력 음성, 역사적 문맥, 외부 지식 등을 활용하여 문맥 학습을 수행 - 유효 정보 비율(Valid Information Proportion, VIP)
동시 음성 번역(SiST)의 성능을 정확히 측정하기 위한 평가 지표 - 다단계 학습 과정
사전 학습, 중간 지속 학습, 인간 주석 데이터로 미세 조정된 학습 단계를 통해 소량의 인간 주석 데이터를 사용해 효율적 학습
성능 비교를 보면 기존 대비 상당한 향상이 있었음을 볼 수 있습니다. 수치 비교에서는 중국어와 영어 간의 번역 성능을 예시로 보여주는데 VIP(Valid Information Proportion)라는 인간 평가 지표값에서는 2배 가까운 점수로 상당한 성능 향상이 있음을 보여줍니다. 중국어-영어 및 영어-중국어 번역 방향에서 CLASI vs 기존 시스템의 VIP값은 각각 81.3% (vs 35.4%), 78.0% (vs 41.6%)입니다.