Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 오블완
- 우분투
- tts
- PYTHON
- 인공지능
- TRANSFORMER
- OpenAI
- AI
- 오픈AI
- 딥마인드
- ChatGPT
- 멀티모달
- ControlNet
- 가상환경
- AI 기술
- 이미지 편집
- 아두이노
- 뉴럴링크
- LORA
- 확산 모델
- LLM
- 메타
- 티스토리챌린지
- 트랜스포머
- javascript
- 서보모터
- 생성형 AI
- 시간적 일관성
- ubuntu
- 일론 머스크
Archives
- Today
- Total
목록병렬 처리 (1)
AI 탐구노트
WhisperX : 긴 오디오, 단어 수준 지원 음성 인식 시스템
긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템 WhisperX는 음성 활동 감지(VAD) 및 음소 강제 정렬을 사용하여 긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템입니다. Whisper와 같은 기존 음성 인식 모델은 긴 오디오의 타임스탬프 예측에서 부정확하며, 단어별 타임스탬프를 제공하지 못했습니다. 또한, 긴 오디오 파일을 처리할 때 처리 속도가 느리고 메모리 제약으로 인해 병렬 처리가 되지 않았습니다. WhisperX는 VAD를 이용해 긴 오디오를 30초 이하의 짧은 청크로 분할하고, Whisper를 사용해 병렬로 오디오를 변환한 후, 음소 인식 모델을 통해 단어 수준의 타임스탬프를 정밀하게 맞춥니다. 위의 그림은 WhisperX의 전..
AI 기술
2024. 9. 6. 12:09