AI 탐구노트

Voxtral : Whisper를 뛰어넘는 오픈소스 음성 AI 본문

AI 관련 소식

Voxtral : Whisper를 뛰어넘는 오픈소스 음성 AI

42morrow 2025. 7. 16. 17:41

 

Voxtral 이란?

 

지난 몇 년간 OpenAI의 Whisper는 오픈소스 음성 인식 분야에서 사실상 챔피언이었습니다. 복잡한 발음이나 다양한 억양을 높은 정확도로 인식하며, 많은 개발자와 연구자, 심지어 유튜브 자막 제작자까지 폭넓게 활용해왔습니다. 그리고 상당 수의 오픈소스 기반 ASR (음성인식) 솔루션이 이것을 이용하기도 했습니다. 하지만 Whisper는 어디까지나 ‘전사(transcribe)’에 강한 모델이었습니다. 즉, 말을 글로 옮기는 일에는 탁월했지만, 그 ‘의미’를 이해하지는 못했습니다.

 

이제 새로운 주자가 등장했습니다. Mistral AI의 Voxtral, 그것도 오픈소스로요! 😍 Whisper의 강력한 대안이면서, 진정한 차세대 음성 AI의 기준점으로 등장한 이 기술은, 전사에서 멈추지 않고 심층 이해와 기능 실행까지 확장되었습니다.

 

한마디로 비유하자면, Whisper가 속기사라면, Voxtral은 속기+통역+비서 업무까지 해내는 슈퍼비서라고 할 수 있습니다. 흠... 너무 띄웠나요? ^^;

 

제공 기능

Voxtral을 이용해 할 수 있는 일들을 보면, 단순히 '음성을 텍스트로 변환'하는 정도가 아닙니다. 다음과 같이 다양하죠.

  • 회의, 강연, 팟캐스트 자동 요약 : 예전에는 긴 회의 녹음을 다 들어야 했지만, 이제는 '중요한 요점만 알려줘'라고 말하면 Voxtral이 바로 요약해줍니다.
  • 질의 응답 : '오늘 예산은 얼마였지?' 같은 질문도 바로 오디오에서 답을 추출해줄 수 있습니다.
  • 음성 기반 명령 실행 : '회의 끝나고 고객한테 메일 보내줘'라고 말하면 실제 이메일 자동 발송까지 연결할 수 있습니다. 
  • 글로벌 다국어 지원 : 영어, 스페인어, 프랑스어, 포르투갈어, 힌디어, 독일어, 네델란드어, 이탈리아어까지 자동으로 감지하고 정확히 인식합니다. 아쉽게도 한글은 공식 목록 상에는 없습니다. 프랑스 기업답게 유럽 쪽에서 사용하는 언어들만 있네요. 

 

Whisper도 다국어 지원은 있었지만, Voxtral은 질문 응답과 의미 이해, 그리고 기능 실행까지 한 몸에 담은 ‘음성 기반 인터페이스’입니다.

 

이 기술은 비전문가에게 큰 도움이 될 거라고 생각됩니다. 예를 들어, IT를 잘 모르는 직장인도 음성만으로 문서 작성, 일정 관리, 이메일 전송 등을 쉽게 할 수 있게 되는 거죠.

 

 

그림 : 공식 블로그에서 소개된 단순 음성 데모 페이지에는 한국어가 있네요? 흠... 뭔지?

 

 

 

작동 원리

Voxtral의 핵심은 '음성-의미 통합 모델'이라는 것입니다. 기존에는 다음과 같이 작동했었습니다. 

  1. Whisper로 음성 → 텍스트 전사
  2. 그 텍스트를 LLM(예: GPT-4)에 보내서 질문 응답 또는 요약 수행
  3. 명령이라면 또 다른 API를 연결해 기능 실행

하지만 Voxtral은 이 모든 과정을 하나의 모델에서 실시간으로 처리합니다. 말을 이해하고 → 맥락을 파악하며 → 필요한 기능을 실행하는 음성 기반 초지능 비서가 된 셈입니다.

 

이 기술이 가능한 건 다음과 같은 구조 덕분입니다.

  • 32k 토큰 컨텍스트 창 : 30~40분짜리 오디오도 한 번에 이해
  • 음성 기반 Q&A 및 요약 내장
  • Function calling 기능 내장 : API를 직접 호출 가능
  • Mistral Small 3.1 기반 : 텍스트 처리 성능도 최고 수준

정말 놀라운 점은, 이런 고급 모델을 Apache 2.0 라이선스 기반의 오픈소스로 제공한다는 점입니다. 진정한 기술 민주화인 셈입니다.

 

공개 내용과 로드맵

현재 Voxtral은 두 가지 버전으로 제공됩니다. 

  • Voxtral Mini (3B) : 로컬 또는 모바일 기기에 적합
    단, Hugging Face 공개 내용에 보면 fp16/bf16에서 9.5GB 이상의 GPU 메모리가 필요
  • Voxtral Small (24B) : 클라우드·서버용 고성능 모델
    Hugging Face 공개 내용을 보면 55GB 수준의 GPU 메모리가 필요

이 모델들은 Hugging Face에서 다운로드 가능하며, API도 제공됩니다. API로는 가격은 분당 0.001달러, 기존 경쟁사의 절반 이하 수준으로 매우 경쟁력이 있습니다. 

 

 

벤치마크 결과도 주목할 만합니다.

  • Whisper large-v3를 완전히 능가
  • GPT-4o mini Transcribe, Gemini 2.5 Flash보다 정확도 우수
  • 특히 유럽 언어와 짧은 문장 처리에서 탁월한 성능

그림 : Transcription 성능 비교

 

 

앞으로는 다음과 같은 기능도 추가될 예정이라고 합니다.

  • 화자 분리 (Speaker Diarization) : 누가 언제 말했는지 구분
  • 감정 인식 (Emotion Recognition) : 음성의 억양, 말투 등을 분석해 감정 상태를 파악하는 기능
  • 비음성 감지 (Non-Speech Detection) : 침묵, 잡음, 배경 소리 등 음성 외 요소를 식별하는 기능
  • 워드 레벨 타임스탬프 (Word-Level Timestamps) : 각 단어가 언제 발화되었는지 시간 정보를 제공하는 기능

오호라... 이런 기능이 다 제공되면서 오픈소스라면... 거기에 혹시나 가능하다면 '4/8bit 양자화'와 '한국어 지원'까지(이건 발표 내용에 없음) 지원된다면 금상첨화일 것 같습니다. 저는 이 모든 기능이 통합되면, Voxtral은 단순한 전사 도구가 아닌, '진정한 '음성 UI 플랫폼'으로 자리매김하지 않을까 생각합니다. 

 

참고) 개발사 Mistral AI와 Voxtral의 의의?

Mistral AI는 2023년에 설립된 프랑스 스타트업으로, LLM(Open Source) 개발로 급부상했습니다. 가볍고 빠르며 개방적인 AI라는 철학을 고수해 오고 있습니다. 

 

OpenAI의 Whisper가 오픈소스 음성 AI의 문을 열었다면, Voxtral은 그 문을 통과해 다음 방으로 이끄는 길잡이같은 역할을 할 것 같습니다. 

 


참고자료

  • 블로그) Voxtral 공식 공개 페이지 (링크)
  • 모델) Hugging Face 상의 Voxtral 모델 카드 (링크)
  • 데모) Voxtral 음성 데모 (링크)
  • 소개영상) Voxtral: Mistral의 새로운 오픈 소스 음성 AI 모델 - 로컬 테스트 (링크)