일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 확산 모델
- TRANSFORMER
- LORA
- 메타
- javascript
- ControlNet
- 트랜스포머
- 딥마인드
- 이미지 편집
- 티스토리챌린지
- 인공지능
- ubuntu
- 오픈AI
- 일론 머스크
- AI
- 오블완
- ChatGPT
- 시간적 일관성
- 우분투
- AI 기술
- 가상환경
- PYTHON
- LLM
- 아두이노
- tts
- 뉴럴링크
- 생성형 AI
- 서보모터
- OpenAI
- 멀티모달
- Today
- Total
목록음성 인식 (3)
AI 탐구노트
1. 서론최근 인공지능 기술의 발전은 실시간 번역 및 통역 서비스에서 중요한 도약을 이루고 있습니다. 특히, 실시간 음성 간 동시 번역(Simul-S2ST)은 국제 회의, 라이브 방송 등 다양한 실생활 상황에서 저지연으로 고품질 번역을 제공하는 핵심 기술로 자리 잡고 있습니다. 이 기술은 음성 입력을 실시간으로 처리하여 타겟 언어로 음성을 생성하는 복잡한 과정을 포함하며, 번역 품질과 동시성 정책을 모두 고려하고 있습니다. 2. 본론2.1 기존 방식의 문제점기존의 동시 번역 기술은 종종 여러 모듈(음성 인식, 텍스트 번역, 음성 합성)을 직렬로 연결하는 접근 방식을 사용합니다. 이러한 접근법은 각 모듈 간 오류가 누적되어 최종 출력의 품질 저하를 초래할 수 있습니다. 특히, 음성의 연속성과 불확실한 지..
Whisper Turbo Whisper Turbo는 OpenAI에서 개발한 Whipser의 최신 버전입니다. 'Turbo'라는 이름이 붙은 것처럼 높은 정확도에도 불구하고 기존 대비 처리 속도가 대폭 빨라졌습니다. 최대 8배 가까이 환경 구성 1.Anaconda 가상 환경$ conda create -n whisper python=3.10$ conda activate whisper 2.pytorch 설치 Whisper Turbo + 1.Flash Attention 2 설치이 녀석은 추론 속도를 최적화해서 제공하므로 설치하는 것이 좋다고 해서 진행합니다. github repository에는 설치 과정도 아래 딱 한 줄 명령어라 너무 쉽게 생각했던 것 같습니다. $ pip install flash-att..
긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템 WhisperX는 음성 활동 감지(VAD) 및 음소 강제 정렬을 사용하여 긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템입니다. Whisper와 같은 기존 음성 인식 모델은 긴 오디오의 타임스탬프 예측에서 부정확하며, 단어별 타임스탬프를 제공하지 못했습니다. 또한, 긴 오디오 파일을 처리할 때 처리 속도가 느리고 메모리 제약으로 인해 병렬 처리가 되지 않았습니다. WhisperX는 VAD를 이용해 긴 오디오를 30초 이하의 짧은 청크로 분할하고, Whisper를 사용해 병렬로 오디오를 변환한 후, 음소 인식 모델을 통해 단어 수준의 타임스탬프를 정밀하게 맞춥니다. 위의 그림은 WhisperX의 전..