AI 탐구노트

StreamSpeech : 실시간 음성 간 동시 번역을 위한 다중 과제 학습 모델 본문

AI 기술

StreamSpeech : 실시간 음성 간 동시 번역을 위한 다중 과제 학습 모델

42morrow 2024. 11. 14. 10:35

 

 

1. 서론

최근 인공지능 기술의 발전은 실시간 번역 및 통역 서비스에서 중요한 도약을 이루고 있습니다. 특히, 실시간 음성 간 동시 번역(Simul-S2ST)은 국제 회의, 라이브 방송 등 다양한 실생활 상황에서 저지연으로 고품질 번역을 제공하는 핵심 기술로 자리 잡고 있습니다. 이 기술은 음성 입력을 실시간으로 처리하여 타겟 언어로 음성을 생성하는 복잡한 과정을 포함하며, 번역 품질과 동시성 정책을 모두 고려하고 있습니다. 

 

2. 본론

2.1 기존 방식의 문제점

기존의 동시 번역 기술은 종종 여러 모듈(음성 인식, 텍스트 번역, 음성 합성)을 직렬로 연결하는 접근 방식을 사용합니다. 이러한 접근법은 각 모듈 간 오류가 누적되어 최종 출력의 품질 저하를 초래할 수 있습니다. 특히, 음성의 연속성과 불확실한 지속 시간으로 인해 적절한 번역 시점을 결정하는 정책 설정이 어려운 문제가 있었습니다.

2.2. StreamSpeech 

2.2.1. 개요

StreamSpeech 모델은 이러한 도전에 대응하기 위해 제안된 통합 솔루션으로, 다중 과제 학습(multi-task learning)을 통해 번역과 동시 정책을 통합적으로 학습합니다. 이 모델은 음성 인식(ASR), 음성 번역(S2TT), 텍스트 기반 음성 합성(TTS) 등 여러 과제를 단일 아키텍처에서 수행하며, 기존의 모듈 간 오류 전파 문제를 극복합니다.

 

그림 : StreamSpeech의 개요 (All in One 모델)

 

 

2.2.2. StreamSpeech 아키텍처

 

그림 : StreamSpeech의 처리 파이프라인

 

 

StreamSpeech는 음성 데이터를 받아 이를 텍스트 중간 표현으로 변환한 후, 타겟 음성으로 변환하는 두 단계 구조를 채택합니다. 이 과정에서 음성 인식 및 텍스트 번역과 같은 보조 과제를 학습하여 번역 품질과 정책의 효율성을 동시에 향상시킵니다.

 

StreamSpeech의 아키텍처는 크게 세 가지 주요 모듈로 구성됩니다.

  • Streaming Speech Encoder: 청크 기반 Conformer 구조를 사용하여 실시간 음성을 인코딩합니다. 이 인코더는 입력 음성을 청크 단위로 나누어 양방향으로 인코딩하면서도 스트리밍 데이터의 연속성을 유지합니다.
  • Simultaneous Text Decoder: 음성 인코더의 출력과 CTC 디코더를 기반으로 동시 텍스트 번역을 수행합니다. "읽기"와 "쓰기"의 정책은 텍스트와 음성의 정렬을 통해 결정됩니다.
  • Text-to-Unit Decoder & Vocoder: 번역된 텍스트를 유닛 시퀀스로 변환한 후, HiFi-GAN 보코더를 사용하여 최종 음성을 생성합니다. 유닛 기반 접근법은 음성 합성의 효율성과 품질을 동시에 보장합니다.

 

2.2.3. 세부 적용 기술

  • Chunk-based Conformer 
    실시간 입력을 처리하기 위해, StreamSpeech는 청크 기반 Conformer를 사용합니다. 이 구조는 짧은 청크 단위로 양방향 인코딩을 수행하며, 실시간 입력의 연속성을 유지합니다.
  • CTC Decoder
    연결주의 시계열 분류(CTC) 디코더를 통해 음성과 텍스트 간의 정렬을 학습합니다. 이는 음성에서 텍스트로의 전환 시 정책적 결정(읽기 또는 쓰기)을 유도하는 데 핵심적인 역할을 합니다.
  • HiFi-GAN Vocoder
    생성된 유닛 기반 음성을 실제 음성으로 변환하기 위해 HiFi-GAN 보코더를 활용합니다. 이 보코더는 고품질 음성 합성을 지원하며, 저지연 환경에서도 우수한 성능을 제공합니다.
 
2.2.4. 제약사항

 

현 모델은 타겟 음성을 생성할 때 음색이나 억양의 복제를 제한적으로 지원하여, 사용자의 음성 특징을 유지하는 데 한계가 있습니다. 향후 연구에서는 음성 클로닝 기술의 통합을 고려할 수 있습니다.


3. 결론

StreamSpeech는 실시간 음성 간 동시 번역의 새로운 가능성을 열었습니다. 이 모델은 다중 과제 학습을 통해 번역 품질과 동시성 정책의 최적화를 동시에 달성하며, 다양한 저지연 응용 분야에서 실질적인 효과를 기대할 수 있습니다. 향후 음성 클로닝 기술이 통합된다면, 개인화된 번역 경험을 제공할 수 있을 것입니다.

 


4. 참고자료

  • (논문) StreamSpeech: Simultaneous Speech-to-Speech Translation with Multi-task Learning (링크)
  • 코드(깃헙) 
 

GitHub - ictnlp/StreamSpeech: StreamSpeech is an “All in One” seamless model for offline and simultaneous speech recognition

StreamSpeech is an “All in One” seamless model for offline and simultaneous speech recognition, speech translation and speech synthesis. - ictnlp/StreamSpeech

github.com

 

  • 사전학습 모델 파일 (링크)

5. Q&A

Q. StreamSpeech의 주요 장점은 무엇인가요?
StreamSpeech는 다중 과제 학습을 통해 번역 품질과 동시 정책을 통합적으로 학습하여, 모듈 간 오류 누적 문제를 해결합니다.

 

Q. StreamSpeech는 어떤 기술로 실시간 입력을 처리하나요?
청크 기반 Conformer를 사용하여 실시간 입력의 양방향 인코딩을 수행합니다.

 

Q. 향후 개선 가능한 부분은 무엇인가요?
타겟 음성의 음색 복제를 지원하는 음성 클로닝 기술의 통합이 필요합니다.