Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 오픈AI
- 휴머노이드 로봇
- 메타
- OpenAI
- ControlNet
- 트랜스포머
- 시간적 일관성
- 티스토리챌린지
- 생성형 AI
- TRANSFORMER
- 우분투
- LLM
- 아두이노
- 가상환경
- AI 기술
- ChatGPT
- AI
- 뉴럴링크
- 멀티모달
- 딥마인드
- LORA
- PYTHON
- 딥러닝
- 오블완
- 확산 모델
- ubuntu
- 인공지능
- 서보모터
- 일론 머스크
- tts
Archives
- Today
- Total
목록강제 음소 정렬 (1)
AI 탐구노트
WhisperX : 긴 오디오, 단어 수준 지원 음성 인식 시스템
긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템 WhisperX는 음성 활동 감지(VAD) 및 음소 강제 정렬을 사용하여 긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템입니다. Whisper와 같은 기존 음성 인식 모델은 긴 오디오의 타임스탬프 예측에서 부정확하며, 단어별 타임스탬프를 제공하지 못했습니다. 또한, 긴 오디오 파일을 처리할 때 처리 속도가 느리고 메모리 제약으로 인해 병렬 처리가 되지 않았습니다. WhisperX는 VAD를 이용해 긴 오디오를 30초 이하의 짧은 청크로 분할하고, Whisper를 사용해 병렬로 오디오를 변환한 후, 음소 인식 모델을 통해 단어 수준의 타임스탬프를 정밀하게 맞춥니다. 위의 그림은 WhisperX의 전..
AI 기술
2024. 9. 6. 12:09