일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- AI
- 오블완
- OpenAI
- 강화 학습
- 이미지 생성
- 휴머노이드 로봇
- ChatGPT
- 메타
- 다국어 지원
- 멀티모달
- 딥러닝
- 확산 모델
- 생성형 AI
- LORA
- 티스토리챌린지
- 우분투
- OpenCV
- AI 기술
- PYTHON
- 시간적 일관성
- tts
- 일론 머스크
- 인공지능
- 아두이노
- TRANSFORMER
- LLM
- 트랜스포머
- 오픈AI
- 오픈소스
- 실시간 렌더링
- Today
- Total
목록음성 인식 (5)
AI 탐구노트

최근 인공지능(AI) 언어 모델 연구에서 매개변수의 크기를 줄이면서도 성능을 유지하거나 개선하는 방향이 활발히 진행되고 있습니다. 기존 대형 언어 모델들은 뛰어난 성능을 자랑하지만, 높은 연산 비용과 메모리 사용량이 문제로 지적되고 있습니다. 이에 따라 "소형 언어 모델(Small Language Models, SLMs)"에 대한 연구가 증가하고 있으며, 적절한 데이터 구성과 최적화된 모델 설계를 통해 대형 모델에 버금가는 성능을 달성하려는 시도가 이루어지고 있습니다. Microsoft에서 발표한 Phi-4-Mini 및 Phi-4-Multimodal은 이러한 흐름을 반영한 최신 연구 성과로, 3.8억 개의 매개변수만으로도 수학 및 코딩 분야에서 두 배 이상 큰 모델과 유사한 성능을 보여줍니다. 특히, P..

음악은 인간 감성의 언어로, 수천 년 동안 문화를 형성하고 우리 삶을 풍요롭게 해왔습니다. 현대의 기술 발전은 단순히 음악을 듣는 것을 넘어, 음악의 구조를 이해하고 시각적으로 표현하는 데까지 이르고 있습니다. 예를 들어, 스마트폰을 통해 간단히 멜로디를 검색하거나, 피아노 앱에서 연주 실력을 평가받는 것처럼, 기술은 점차 음악의 언어를 해석하고 번역하는 방향으로 발전하고 있습니다. 이제는 한 걸음 더 나아가, 특정 소리나 음악을 실시간으로 듣고 이를 정확한 악보로 전사하는 기술이 주목받고 있습니다. 이는 단순한 편리함을 넘어, 교육, 창작, 보존 등의 영역에서 새로운 가능성을 열어줍니다. 이 글에서는 음악을 악보로 전사하는 기술이 가진 잠재력과 이를 실현하기 위한 접근법을 살펴봅니다.1.악보 제작 기술..

1. 서론최근 인공지능 기술의 발전은 실시간 번역 및 통역 서비스에서 중요한 도약을 이루고 있습니다. 특히, 실시간 음성 간 동시 번역(Simul-S2ST)은 국제 회의, 라이브 방송 등 다양한 실생활 상황에서 저지연으로 고품질 번역을 제공하는 핵심 기술로 자리 잡고 있습니다. 이 기술은 음성 입력을 실시간으로 처리하여 타겟 언어로 음성을 생성하는 복잡한 과정을 포함하며, 번역 품질과 동시성 정책을 모두 고려하고 있습니다. 2. 본론2.1 기존 방식의 문제점기존의 동시 번역 기술은 종종 여러 모듈(음성 인식, 텍스트 번역, 음성 합성)을 직렬로 연결하는 접근 방식을 사용합니다. 이러한 접근법은 각 모듈 간 오류가 누적되어 최종 출력의 품질 저하를 초래할 수 있습니다. 특히, 음성의 연속성과 불확실한 지..

Whisper Turbo Whisper Turbo는 OpenAI에서 개발한 Whipser의 최신 버전입니다. 'Turbo'라는 이름이 붙은 것처럼 높은 정확도에도 불구하고 기존 대비 처리 속도가 대폭 빨라졌습니다. 최대 8배 가까이 환경 구성 1.Anaconda 가상 환경$ conda create -n whisper python=3.10$ conda activate whisper 2.pytorch 설치 Whisper Turbo + 1.Flash Attention 2 설치이 녀석은 추론 속도를 최적화해서 제공하므로 설치하는 것이 좋다고 해서 진행합니다. github repository에는 설치 과정도 아래 딱 한 줄 명령어라 너무 쉽게 생각했던 것 같습니다. $ pip install flash-att..

긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템 WhisperX는 음성 활동 감지(VAD) 및 음소 강제 정렬을 사용하여 긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템입니다. Whisper와 같은 기존 음성 인식 모델은 긴 오디오의 타임스탬프 예측에서 부정확하며, 단어별 타임스탬프를 제공하지 못했습니다. 또한, 긴 오디오 파일을 처리할 때 처리 속도가 느리고 메모리 제약으로 인해 병렬 처리가 되지 않았습니다. WhisperX는 VAD를 이용해 긴 오디오를 30초 이하의 짧은 청크로 분할하고, Whisper를 사용해 병렬로 오디오를 변환한 후, 음소 인식 모델을 통해 단어 수준의 타임스탬프를 정밀하게 맞춥니다. 위의 그림은 WhisperX의 전..