Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- Stable Diffusion
- OpenCV
- ChatGPT
- 휴머노이드 로봇
- 딥러닝
- 티스토리챌린지
- 메타
- 오블완
- 다국어 지원
- 멀티모달
- 확산 모델
- 일론 머스크
- LORA
- PYTHON
- 강화 학습
- ubuntu
- AI
- tts
- AI 기술
- 아두이노
- 인공지능
- OpenAI
- 트랜스포머
- LLM
- 생성형 AI
- 오픈AI
- 우분투
- 시간적 일관성
- TRANSFORMER
- 오픈소스
Archives
- Today
- Total
목록긴 오디오 처리 (1)
AI 탐구노트

긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템 WhisperX는 음성 활동 감지(VAD) 및 음소 강제 정렬을 사용하여 긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템입니다. Whisper와 같은 기존 음성 인식 모델은 긴 오디오의 타임스탬프 예측에서 부정확하며, 단어별 타임스탬프를 제공하지 못했습니다. 또한, 긴 오디오 파일을 처리할 때 처리 속도가 느리고 메모리 제약으로 인해 병렬 처리가 되지 않았습니다. WhisperX는 VAD를 이용해 긴 오디오를 30초 이하의 짧은 청크로 분할하고, Whisper를 사용해 병렬로 오디오를 변환한 후, 음소 인식 모델을 통해 단어 수준의 타임스탬프를 정밀하게 맞춥니다. 위의 그림은 WhisperX의 전..
AI 기술
2024. 9. 6. 12:09