'음성 인식' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록음성 인식 (5)

AI 탐구노트

Phi-4 : Mixture-of-LoRAs를 활용한 강력한 멀티모달 언어 모델

최근 인공지능(AI) 언어 모델 연구에서 매개변수의 크기를 줄이면서도 성능을 유지하거나 개선하는 방향이 활발히 진행되고 있습니다. 기존 대형 언어 모델들은 뛰어난 성능을 자랑하지만, 높은 연산 비용과 메모리 사용량이 문제로 지적되고 있습니다. 이에 따라 "소형 언어 모델(Small Language Models, SLMs)"에 대한 연구가 증가하고 있으며, 적절한 데이터 구성과 최적화된 모델 설계를 통해 대형 모델에 버금가는 성능을 달성하려는 시도가 이루어지고 있습니다. Microsoft에서 발표한 Phi-4-Mini 및 Phi-4-Multimodal은 이러한 흐름을 반영한 최신 연구 성과로, 3.8억 개의 매개변수만으로도 수학 및 코딩 분야에서 두 배 이상 큰 모델과 유사한 성능을 보여줍니다. 특히, P..

AI 기술 2025. 3. 8. 10:02

자동 악보 전사 (Automatic Notes Trascription): 들리는 것을 보이는 것으로 바꾸는 기술

음악은 인간 감성의 언어로, 수천 년 동안 문화를 형성하고 우리 삶을 풍요롭게 해왔습니다. 현대의 기술 발전은 단순히 음악을 듣는 것을 넘어, 음악의 구조를 이해하고 시각적으로 표현하는 데까지 이르고 있습니다. 예를 들어, 스마트폰을 통해 간단히 멜로디를 검색하거나, 피아노 앱에서 연주 실력을 평가받는 것처럼, 기술은 점차 음악의 언어를 해석하고 번역하는 방향으로 발전하고 있습니다. 이제는 한 걸음 더 나아가, 특정 소리나 음악을 실시간으로 듣고 이를 정확한 악보로 전사하는 기술이 주목받고 있습니다. 이는 단순한 편리함을 넘어, 교육, 창작, 보존 등의 영역에서 새로운 가능성을 열어줍니다. 이 글에서는 음악을 악보로 전사하는 기술이 가진 잠재력과 이를 실현하기 위한 접근법을 살펴봅니다.1.악보 제작 기술..

AI 기술 2024. 12. 23. 12:31

StreamSpeech : 실시간 음성 간 동시 번역을 위한 다중 과제 학습 모델

1. 서론최근 인공지능 기술의 발전은 실시간 번역 및 통역 서비스에서 중요한 도약을 이루고 있습니다. 특히, 실시간 음성 간 동시 번역(Simul-S2ST)은 국제 회의, 라이브 방송 등 다양한 실생활 상황에서 저지연으로 고품질 번역을 제공하는 핵심 기술로 자리 잡고 있습니다. 이 기술은 음성 입력을 실시간으로 처리하여 타겟 언어로 음성을 생성하는 복잡한 과정을 포함하며, 번역 품질과 동시성 정책을 모두 고려하고 있습니다. 2. 본론2.1 기존 방식의 문제점기존의 동시 번역 기술은 종종 여러 모듈(음성 인식, 텍스트 번역, 음성 합성)을 직렬로 연결하는 접근 방식을 사용합니다. 이러한 접근법은 각 모듈 간 오류가 누적되어 최종 출력의 품질 저하를 초래할 수 있습니다. 특히, 음성의 연속성과 불확실한 지..

AI 기술 2024. 11. 14. 10:35

Whisper Turbo 로컬 설치 및 테스트

Whisper Turbo Whisper Turbo는 OpenAI에서 개발한 Whipser의 최신 버전입니다. 'Turbo'라는 이름이 붙은 것처럼 높은 정확도에도 불구하고 기존 대비 처리 속도가 대폭 빨라졌습니다. 최대 8배 가까이 환경 구성 1.Anaconda 가상 환경$ conda create -n whisper python=3.10$ conda activate whisper 2.pytorch 설치 Whisper Turbo + 1.Flash Attention 2 설치이 녀석은 추론 속도를 최적화해서 제공하므로 설치하는 것이 좋다고 해서 진행합니다. github repository에는 설치 과정도 아래 딱 한 줄 명령어라 너무 쉽게 생각했던 것 같습니다. $ pip install flash-att..

DIY 테스트 2024. 10. 22. 14:05

WhisperX : 긴 오디오, 단어 수준 지원 음성 인식 시스템

긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템 WhisperX는 음성 활동 감지(VAD) 및 음소 강제 정렬을 사용하여 긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템입니다. Whisper와 같은 기존 음성 인식 모델은 긴 오디오의 타임스탬프 예측에서 부정확하며, 단어별 타임스탬프를 제공하지 못했습니다. 또한, 긴 오디오 파일을 처리할 때 처리 속도가 느리고 메모리 제약으로 인해 병렬 처리가 되지 않았습니다. WhisperX는 VAD를 이용해 긴 오디오를 30초 이하의 짧은 청크로 분할하고, Whisper를 사용해 병렬로 오디오를 변환한 후, 음소 인식 모델을 통해 단어 수준의 타임스탬프를 정밀하게 맞춥니다. 위의 그림은 WhisperX의 전..

AI 기술 2024. 9. 6. 12:09

이전 Prev 1 Next 다음

목록음성 인식 (5)

AI 탐구노트

티스토리툴바