일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 오블완
- LLM
- LORA
- 시간적 일관성
- 트랜스포머
- AI
- 뉴럴링크
- 일론 머스크
- TRANSFORMER
- 휴머노이드 로봇
- OpenAI
- PYTHON
- 인공지능
- 오픈AI
- 아두이노
- 티스토리챌린지
- 메타
- 확산 모델
- 멀티모달
- 가상환경
- ubuntu
- 우분투
- tts
- 생성형 AI
- ChatGPT
- 딥러닝
- ControlNet
- AI 기술
- 서보모터
- 딥마인드
- Today
- Total
목록Whisper (2)
AI 탐구노트
1. 서론현대 사회에서 실시간 음성 인식 기술은 빠르게 발전하고 있으며, 발표 중 실시간 자막 제공, 청각 장애인을 위한 접근성 도구, 스마트 기기 및 웨어러블의 음성 명령 처리 등 다양한 영역에서 필수적입니다. 그러나 이러한 기술이 저비용 하드웨어에서 원활히 작동하려면 높은 정확성과 낮은 지연 시간이 필요합니다. 특히, 인터넷 연결 없이 동작하는 장치에서는 연산 자원의 한계로 인해 더욱 도전적입니다. 최근 OpenAI의 Whisper는 일반적인 음성 인식 정확도를 크게 향상시켰으나, 고정된 길이의 입력을 요구하여 저지연 환경에서는 한계가 있었습니다. 이에 대한 해결책으로 소개된 Moonshine은 Whisper의 장점을 유지하면서도 실시간 처리에 최적화된 모델입니다. 이 글에서는 Moonshine의 구..
배경 최근 아이폰을 사용하다보니 시리가 예전 대비해서는 많이 좋아졌다는 느낌을 받게 되었습니다. 제대로 말귀를 못 알아듣던 녀석이었는데 오호라... 하지만, 아직도 구글 어시스턴트나 ChatGPT와 같은 다른 서비스에 비하면 영 멀었다는 생각이 드는 건 어쩔 수 없습니다. 최근 나오는 ASR (Auto Speech Recognition) 혹은 STT (Speech to Text) 기능을 이용하면 실시간 번역 혹은 통역이 가능할 것 같고, 최신 휴대전화에는 온디바이스 AI 기능으로 이런 것이 소개되기도 합니다. 장비 자체의 연산 자원의 제약으로 아주 훌륭한 통번역은 좀 더 지나야 나올 수 있을 것 같긴 하지만, 그래도 간단한 문장들은 쉽게 처리해 주고 있어 언치(언어치 -_-;)인 저한테는 큰 기대가 되..