Notice
Recent Posts
Recent Comments
Link
250x250
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- AI 기술
- 오픈AI
- 시간적 일관성
- 멀티모달
- LLM
- 자연어 처리
- tts
- 우분투
- LORA
- OpenAI
- 인공지능
- 오블완
- 일론 머스크
- AI
- 강화 학습
- 실시간 렌더링
- ChatGPT
- 생성형AI
- 티스토리챌린지
- 다국어 지원
- OpenCV
- ai 챗봇
- 메타
- XAI
- 확산 모델
- 휴머노이드 로봇
- 딥러닝
- 오픈소스
- 트랜스포머
- PYTHON
Archives
- Today
- Total
AI 탐구노트
Parakeet TDT 0.6B : NVIDIA, 영문 지원 잘하는 오픈소스 ASR 모델 공개 본문
728x90
Parakeet TDT0.6B는 최근 NVIDIA가 오픈소스로 공개한 음성인식(Speech Recognition) 모델입니다. 좋은 성능에 빠른 속도... 짧게라도 정리를 해 두고 넘어가야 할 것 같아서 기록해 둡니다.
Parakeet TDT
1️⃣ 모델 특징
- 6억개의 매개 변수를 가지는 ASR 모델입니다.
- FastConformer 인코더 아키텍처와 TDT 디코더를 기반으로 개발되었습니다.
- NVIDIA GPU 가속 시스템에서 실행되도록 설계 및 최적화되었습니다.
- NVIDIA NeMo를 설치하고 이를 이용해야 학습, 미세조정, 테스트, 배포 후 실행할 수 있습니다.
- 60분 분량의 음성을 1초 내에 전사(transcribe, 음성->텍스트) 할 수 있습니다.
- 구두점, 대문자 사용 및 정확한 타임스탬프 예측, 숫자를 말로 하거나 노래 가사 등도 잘 처리합니다.
- CC-BY-4.0 라이선스를 가지며 상업적으로 활용 가능합니다.
- 아쉽게도 영어만 아주 잘 지원합니다. T^T
2️⃣ 테스트
HuggingFace에 공개되어 있는 데모를 이용해서 진행해 봅니다. 9분 가량의 유튜브 영상에서 mp3를 추출했고 이를 이용했습니다. 결과는 아래 그림처럼 잘 전사되어 나오는 것을 확인할 수 있습니다. (한글도 혹시나 해 봤지만 아예 전사 자체가 되지 않았습니다)
로컬에 해당 Space를 clone해서 실행해 봤는데 대략 7초 가량이 소요되었습니다. 온라인 데모와 크게 다르지 않았습니다. 아마도 60분짜리를 1초에 할 수 있다고 한것은 테스트에 사용된 GPU 자체가 훨씬 고급 장비였을 것 같습니다.
한글이 지원된다면 하는 아쉬움이 계속 남습니다. 기존에 이용해 봤던 Whisper 등의 대안이 될 수 있을 것 같은데 말입니다. 일단 모델이 소개되었으니 개선된 버전, 다국어 버전이 하나둘씩 소개되지 않을까 기대해 봅니다. 제발 엔비디아여~^^;
참고자료
'AI 기술' 카테고리의 다른 글
FramePack : 긴 비디오 생성을 위한 입력 프레임 압축 기법 (0) | 2025.05.15 |
---|---|
자신만의 폰트 제작 - 1) 폰트 제작 과정과 필요성 (0) | 2025.05.09 |
VLM (Vision Langunage Model) 정리 (4) | 2025.05.08 |
Voila: 실시간 자율형 음성 AI를 위한 새로운 음성-언어 모델의 등장 (0) | 2025.05.07 |
T2I-R1 : 2단계 (Semantic/Token) 레벨 CoT로 이미지 생성 성능을 강화 (0) | 2025.05.06 |