Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 메타
- 트랜스포머
- ChatGPT
- 딥마인드
- PYTHON
- 우분투
- 아두이노
- LORA
- AI
- 인공지능
- 생성형 AI
- 뉴럴링크
- 일론 머스크
- 오픈AI
- 시간적 일관성
- 티스토리챌린지
- 멀티모달
- LLM
- tts
- javascript
- 확산 모델
- TRANSFORMER
- 가상환경
- ubuntu
- 오블완
- 이미지 편집
- OpenAI
- 서보모터
- AI 기술
- ControlNet
Archives
- Today
- Total
AI 탐구노트
CLASI 본문
CLASI (Cross Language Agent - Simultaneous Interpretation)는 대규모 언어 모델(LLM)을 활용한 동시 음성 번역 시스템입니다. 사람, 즉 동시통역사가 번역하는 수준의 품질을 목표로 합니다. '동시'+'통역' 영역이라 번역의 정확성과 지연 시간 둘 다 혹은 이들 간의 균형을 잡기 위해 다양한 기법을 사용하고 있습니다. 구조적으로는
LLM을 기반으로 한 인코더-조건부 아키텍처로, 음성 입력을 처리하고 외부 지식 및 이전 번역 문맥을 활용하여 번역을 생성합니다.
이 시스템은 다음과 같은 특징을 가지고 있습니다.
- 데이터 기반 읽기-쓰기 전략
전문통역사의 문장 분할 방식을 학습하여 번역 품질과 지연 시간 간의 균형을 유지합니다. - 다중 모달 검색 모듈(MM-RAG)
어려운 분야의 용어의 번역을 위해 입력 음성, 역사적 문맥, 외부 지식 등을 활용하여 문맥 학습을 수행 - 유효 정보 비율(Valid Information Proportion, VIP)
동시 음성 번역(SiST)의 성능을 정확히 측정하기 위한 평가 지표 - 다단계 학습 과정
사전 학습, 중간 지속 학습, 인간 주석 데이터로 미세 조정된 학습 단계를 통해 소량의 인간 주석 데이터를 사용해 효율적 학습
성능 비교를 보면 기존 대비 상당한 향상이 있었음을 볼 수 있습니다. 수치 비교에서는 중국어와 영어 간의 번역 성능을 예시로 보여주는데 VIP(Valid Information Proportion)라는 인간 평가 지표값에서는 2배 가까운 점수로 상당한 성능 향상이 있음을 보여줍니다. 중국어-영어 및 영어-중국어 번역 방향에서 CLASI vs 기존 시스템의 VIP값은 각각 81.3% (vs 35.4%), 78.0% (vs 41.6%)입니다.