일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- ubuntu
- 딥러닝
- 트랜스포머
- 티스토리챌린지
- tts
- 생성형 AI
- PYTHON
- AI 기술
- AI
- 확산 모델
- 강화 학습
- LLM
- 휴머노이드 로봇
- OpenAI
- 우분투
- Stable Diffusion
- 오픈AI
- 메타
- 오블완
- OpenCV
- 인공지능
- 멀티모달
- TRANSFORMER
- 다국어 지원
- 아두이노
- 시간적 일관성
- LORA
- ChatGPT
- 일론 머스크
- 오픈소스
- Today
- Total
목록저지연 (3)
AI 탐구노트

1. 서론현대 사회에서 실시간 음성 인식 기술은 빠르게 발전하고 있으며, 발표 중 실시간 자막 제공, 청각 장애인을 위한 접근성 도구, 스마트 기기 및 웨어러블의 음성 명령 처리 등 다양한 영역에서 필수적입니다. 그러나 이러한 기술이 저비용 하드웨어에서 원활히 작동하려면 높은 정확성과 낮은 지연 시간이 필요합니다. 특히, 인터넷 연결 없이 동작하는 장치에서는 연산 자원의 한계로 인해 더욱 도전적입니다. 최근 OpenAI의 Whisper는 일반적인 음성 인식 정확도를 크게 향상시켰으나, 고정된 길이의 입력을 요구하여 저지연 환경에서는 한계가 있었습니다. 이에 대한 해결책으로 소개된 Moonshine은 Whisper의 장점을 유지하면서도 실시간 처리에 최적화된 모델입니다. 이 글에서는 Moonshine의 구..

1. 서론최근 인공지능 기술의 발전은 실시간 번역 및 통역 서비스에서 중요한 도약을 이루고 있습니다. 특히, 실시간 음성 간 동시 번역(Simul-S2ST)은 국제 회의, 라이브 방송 등 다양한 실생활 상황에서 저지연으로 고품질 번역을 제공하는 핵심 기술로 자리 잡고 있습니다. 이 기술은 음성 입력을 실시간으로 처리하여 타겟 언어로 음성을 생성하는 복잡한 과정을 포함하며, 번역 품질과 동시성 정책을 모두 고려하고 있습니다. 2. 본론2.1 기존 방식의 문제점기존의 동시 번역 기술은 종종 여러 모듈(음성 인식, 텍스트 번역, 음성 합성)을 직렬로 연결하는 접근 방식을 사용합니다. 이러한 접근법은 각 모듈 간 오류가 누적되어 최종 출력의 품질 저하를 초래할 수 있습니다. 특히, 음성의 연속성과 불확실한 지..

Gradio란 Gradio는 머신러닝 모델을 손쉽게 웹 인터페이스로 배포할 수 있는 Python 라이브러리입니다. 복잡한 코드나 환경 구성 없이 손쉽게 몇 안 되는 코드만으로 웹 브라우저에서 다양한 기능을 구현하고 테스트할 수 있죠. 최근까지 많은 업그레이드가 진행되면서 이미지, 텍스트, 오디오, 비디오 등의 입력 타입을 지원해 주고 있습니다. Gradio 5에서 WebRTC 지원 그런데, 사용하면서 느꼈던 아쉬운 것은 완전 실시간 영상 처리는 어렵다는 것이었습니다. 그랬는데... Gradio 5가 나오면서 이 문제가 해결되었습니다. 다음은 Gradio 5를 소개하는 페이지에서 나오는 내용입니다. “I can’t build realtime apps in Gradio” → We have unlocked..