Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 아두이노
- 확산 모델
- 인공지능
- 딥마인드
- 딥러닝
- tts
- 시간적 일관성
- 가상환경
- LLM
- 메타
- AI
- 오픈AI
- 티스토리챌린지
- 우분투
- TRANSFORMER
- LORA
- 일론 머스크
- OpenAI
- PYTHON
- 멀티모달
- ControlNet
- 휴머노이드 로봇
- ubuntu
- ChatGPT
- 뉴럴링크
- 생성형 AI
- 서보모터
- AI 기술
- 오블완
- 트랜스포머
Archives
- Today
- Total
목록whisperx (1)
AI 탐구노트
WhisperX : 긴 오디오, 단어 수준 지원 음성 인식 시스템
긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템 WhisperX는 음성 활동 감지(VAD) 및 음소 강제 정렬을 사용하여 긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템입니다. Whisper와 같은 기존 음성 인식 모델은 긴 오디오의 타임스탬프 예측에서 부정확하며, 단어별 타임스탬프를 제공하지 못했습니다. 또한, 긴 오디오 파일을 처리할 때 처리 속도가 느리고 메모리 제약으로 인해 병렬 처리가 되지 않았습니다. WhisperX는 VAD를 이용해 긴 오디오를 30초 이하의 짧은 청크로 분할하고, Whisper를 사용해 병렬로 오디오를 변환한 후, 음소 인식 모델을 통해 단어 수준의 타임스탬프를 정밀하게 맞춥니다. 위의 그림은 WhisperX의 전..
AI 기술
2024. 9. 6. 12:09