Parakeet TDT 0.6B : NVIDIA, 영문 지원 잘하는 오픈소스 ASR 모델 공개

Notice

Recent Posts

Recent Comments

Tags more

Archives

관리 메뉴

AI 탐구노트

AI 기술

42morrow 2025. 5. 11. 16:03

728x90

Parakeet TDT0.6B는 최근 NVIDIA가 오픈소스로 공개한 음성인식(Speech Recognition) 모델입니다. 좋은 성능에 빠른 속도... 짧게라도 정리를 해 두고 넘어가야 할 것 같아서 기록해 둡니다.

1️⃣ 모델 특징

2️⃣ 테스트

HuggingFace에 공개되어 있는 데모를 이용해서 진행해 봅니다. 9분 가량의 유튜브 영상에서 mp3를 추출했고 이를 이용했습니다. 결과는 아래 그림처럼 잘 전사되어 나오는 것을 확인할 수 있습니다. (한글도 혹시나 해 봤지만 아예 전사 자체가 되지 않았습니다)

로컬에 해당 Space를 clone해서 실행해 봤는데 대략 7초 가량이 소요되었습니다. 온라인 데모와 크게 다르지 않았습니다. 아마도 60분짜리를 1초에 할 수 있다고 한것은 테스트에 사용된 GPU 자체가 훨씬 고급 장비였을 것 같습니다.

한글이 지원된다면 하는 아쉬움이 계속 남습니다. 기존에 이용해 봤던 Whisper 등의 대안이 될 수 있을 것 같은데 말입니다. 일단 모델이 소개되었으니 개선된 버전, 다국어 버전이 하나둘씩 소개되지 않을까 기대해 봅니다. 제발 엔비디아여~^^;

참고자료

FramePack : 긴 비디오 생성을 위한 입력 프레임 압축 기법 (0)	2025.05.15
자신만의 폰트 제작 - 1) 폰트 제작 과정과 필요성 (0)	2025.05.09
VLM (Vision Langunage Model) 정리 (4)	2025.05.08
Voila: 실시간 자율형 음성 AI를 위한 새로운 음성-언어 모델의 등장 (0)	2025.05.07
T2I-R1 : 2단계 (Semantic/Token) 레벨 CoT로 이미지 생성 성능을 강화 (0)	2025.05.06

'AI 기술' Related Articles