AI 탐구노트

Parakeet TDT 0.6B : NVIDIA, 영문 지원 잘하는 오픈소스 ASR 모델 공개 본문

AI 기술

Parakeet TDT 0.6B : NVIDIA, 영문 지원 잘하는 오픈소스 ASR 모델 공개

42morrow 2025. 5. 11. 16:03
728x90

 

Parakeet TDT0.6B는 최근 NVIDIA가 오픈소스로 공개한 음성인식(Speech Recognition) 모델입니다. 좋은 성능에 빠른 속도... 짧게라도 정리를 해 두고 넘어가야 할 것 같아서 기록해 둡니다. 

 

Parakeet TDT 

1️⃣ 모델 특징

  • 6억개의 매개 변수를 가지는 ASR 모델입니다.
  • FastConformer 인코더 아키텍처와 TDT 디코더를 기반으로 개발되었습니다. 
  • NVIDIA GPU 가속 시스템에서 실행되도록 설계 및 최적화되었습니다.
  • NVIDIA NeMo를 설치하고 이를 이용해야 학습, 미세조정, 테스트, 배포 후 실행할 수 있습니다. 
  • 60분 분량의 음성을 1초 내에 전사(transcribe, 음성->텍스트) 할 수 있습니다. 
  • 구두점, 대문자 사용 및 정확한 타임스탬프 예측, 숫자를 말로 하거나 노래 가사 등도 잘 처리합니다. 
  • CC-BY-4.0 라이선스를 가지며 상업적으로 활용 가능합니다. 
  • 아쉽게도 영어아주 잘 지원합니다. T^T

 

2️⃣ 테스트 

 

HuggingFace에 공개되어 있는 데모를 이용해서 진행해 봅니다. 9분 가량의 유튜브 영상에서 mp3를 추출했고 이를 이용했습니다. 결과는 아래 그림처럼 잘 전사되어 나오는 것을 확인할 수 있습니다. (한글도 혹시나 해 봤지만 아예 전사 자체가 되지 않았습니다)

그림 : youtube 영상의 음성을 이용한 테스트 결과

 

로컬에 해당 Space를 clone해서 실행해 봤는데 대략 7초 가량이 소요되었습니다. 온라인 데모와 크게 다르지 않았습니다. 아마도 60분짜리를 1초에 할 수 있다고 한것은 테스트에 사용된 GPU 자체가 훨씬 고급 장비였을 것 같습니다. 


 

한글이 지원된다면 하는 아쉬움이 계속 남습니다. 기존에 이용해 봤던 Whisper 등의 대안이 될 수 있을 것 같은데 말입니다. 일단 모델이 소개되었으니 개선된 버전, 다국어 버전이 하나둘씩 소개되지 않을까 기대해 봅니다. 제발 엔비디아여~^^;

 


참고자료

  • 모델카드) Parakeet TDT 허깅페이스 (링크)
  • 데모) Parakeet TDT의 Hugging Face Demo (링크)