Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- LLM
- 강화 학습
- 메타
- 시간적 일관성
- OpenCV
- 딥러닝
- 휴머노이드 로봇
- 이미지 생성
- 일론 머스크
- 트랜스포머
- LORA
- 확산 모델
- 인공지능
- tts
- 오블완
- 멀티모달
- AI 기술
- OpenAI
- ChatGPT
- 실시간 렌더링
- AI
- 오픈소스
- 아두이노
- 우분투
- 다국어 지원
- 오픈AI
- 티스토리챌린지
- PYTHON
- 생성형 AI
- TRANSFORMER
Archives
- Today
- Total
목록강제 음소 정렬 (1)
AI 탐구노트

긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템 WhisperX는 음성 활동 감지(VAD) 및 음소 강제 정렬을 사용하여 긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템입니다. Whisper와 같은 기존 음성 인식 모델은 긴 오디오의 타임스탬프 예측에서 부정확하며, 단어별 타임스탬프를 제공하지 못했습니다. 또한, 긴 오디오 파일을 처리할 때 처리 속도가 느리고 메모리 제약으로 인해 병렬 처리가 되지 않았습니다. WhisperX는 VAD를 이용해 긴 오디오를 30초 이하의 짧은 청크로 분할하고, Whisper를 사용해 병렬로 오디오를 변환한 후, 음소 인식 모델을 통해 단어 수준의 타임스탬프를 정밀하게 맞춥니다. 위의 그림은 WhisperX의 전..
AI 기술
2024. 9. 6. 12:09