일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 생성형 AI
- TRANSFORMER
- 트랜스포머
- LLM
- 가상환경
- 우분투
- 일론 머스크
- 오블완
- 딥마인드
- ubuntu
- ChatGPT
- 오픈AI
- javascript
- 멀티모달
- 티스토리챌린지
- PYTHON
- LORA
- ControlNet
- OpenAI
- 인공지능
- 아두이노
- AI
- 메타
- tts
- 확산 모델
- AI 기술
- 이미지 편집
- 뉴럴링크
- 서보모터
- 시간적 일관성
- Today
- Total
AI 탐구노트
WhisperX : 긴 오디오, 단어 수준 지원 음성 인식 시스템 본문
긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템
WhisperX는 음성 활동 감지(VAD) 및 음소 강제 정렬을 사용하여 긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템입니다.
Whisper와 같은 기존 음성 인식 모델은 긴 오디오의 타임스탬프 예측에서 부정확하며, 단어별 타임스탬프를 제공하지 못했습니다. 또한, 긴 오디오 파일을 처리할 때 처리 속도가 느리고 메모리 제약으로 인해 병렬 처리가 되지 않았습니다.
WhisperX는 VAD를 이용해 긴 오디오를 30초 이하의 짧은 청크로 분할하고, Whisper를 사용해 병렬로 오디오를 변환한 후, 음소 인식 모델을 통해 단어 수준의 타임스탬프를 정밀하게 맞춥니다.
위의 그림은 WhisperX의 전체 파이프라인을 보여줍니다. 첫 번째 단계로 오디오가 음성 활동 감지(VAD) 모델을 통해 분할됩니다. 그 후, 최소한의 음성 활동이 있는 경계에서 청크가 병합된 후 Whisper 모델로 병렬 처리됩니다. 마지막으로 음소 인식 모델을 사용해 단어별 타임스탬프를 정확히 맞추는 과정을 거쳐 결과물이 만들어집니다.
WhisperX는 특징은 다음과 같은 것들이 있습니다.
- VAD(Voice Activity Detection)
음성 활동을 감지하여 활성 구간과 비활성 구간을 구분하고, 오디오 청크의 경계를 최소한의 음성 활동이 있는 곳으로 조정하여 병렬 처리를 용이하게 만듦 - VAD Cut & Merge
길거나 짧은 오디오 구간을 적절하게 분할하고 병합하여 Whisper가 처리할 수 있도록 최적화 - 강제 음소 정렬(Forced Alignment)
음소 모델을 사용해 단어 수준에서 정밀한 타임스탬프를 제공함 - 병렬 처리
긴 오디오 파일을 빠르게 처리하기 위해 Whisper의 병렬 처리를 지원하며, 이를 통해 12배 빠른 처리 속도를 구현 - 언어 번역 및 다국어 지원
Whisper의 번역 모드를 지원하며, 여러 언어로도 음성 인식을 적용할 수 있음 - 화자 분리 지원 (Speaker Diarization)
오디오 스트림을 각 화자의 정체성에 따라 분리하는 기능 제공
다른 무엇보다도 Large 모델을 사용하면서도 기존 대비 훨씬 빨라진 추론 속도와 모델 구동을 위해 필요한 GPU 메모리 요구량이 8GB 이하로 상당히 가볍다는 점이 눈길을 끌었습니다. 게다가 발화 수준 단위가 아닌 단어 단위 타임스탬프를 제공하니 번역의 정확도 측면에서도 유리해 보였고 말이죠. 아... 또 한가지... BSD 라이선스를 따르고 있습니다.
'AI 기술' 카테고리의 다른 글
ComA : 3D 객체의 포괄적인 인간-객체 상호작용을 학습하는 방법 (0) | 2024.09.07 |
---|---|
칼로 (Karlo) 2.0 : 카카오의 이미지 생성 모델 (1) | 2024.09.07 |
3D-LLM : 다양한 3D 작업을 수행하는 모델 (0) | 2024.09.06 |
HivisionIDPhotos : ID사진(증명사진)을 생성해 주는 도구 (0) | 2024.09.06 |
FLUXMusic : 텍스트-음악 생성 모델 (1) | 2024.09.05 |