일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 확산 모델
- 오픈AI
- 티스토리챌린지
- 오블완
- 가상환경
- tts
- 딥러닝
- TRANSFORMER
- 인공지능
- 서보모터
- 트랜스포머
- AI 기술
- 우분투
- 시간적 일관성
- 일론 머스크
- 아두이노
- 메타
- LORA
- AI
- 뉴럴링크
- OpenAI
- 딥마인드
- 멀티모달
- ubuntu
- ChatGPT
- 생성형 AI
- PYTHON
- 휴머노이드 로봇
- ControlNet
- LLM
- Today
- Total
목록경량화 (2)
AI 탐구노트
1. 서론 얼굴 검출은 이미지를 분석하여 사람의 얼굴을 정확히 식별하고 그 위치를 파악하는 기술로, 컴퓨터 비전 분야에서 중요한 역할을 담당합니다. 이는 얼굴 인식, 감정 분석, 사용자 인증 등 다양한 응용 분야에 필수적인 기초 기술로 자리 잡았습니다. 최근까지 CNN(Convolutional Neural Networks)은 지역적 특징을 효과적으로 학습하는 특성을 통해 높은 성능을 발휘하며 얼굴 검출에서 주요 기술로 사용되어 왔습니다. 그러나 CNN 기반 모델은 고정된 크기의 수용 영역(receptive field)으로 인해 가려짐, 흐림, 다양한 얼굴 각도와 같은 복잡한 조건에서 한계를 드러냅니다. Transformer 모델은 전역적 관계를 학습하는 데 뛰어난 성능을 보이며 NLP를 넘어 컴퓨터 비전..
1. 서론현대 사회에서 실시간 음성 인식 기술은 빠르게 발전하고 있으며, 발표 중 실시간 자막 제공, 청각 장애인을 위한 접근성 도구, 스마트 기기 및 웨어러블의 음성 명령 처리 등 다양한 영역에서 필수적입니다. 그러나 이러한 기술이 저비용 하드웨어에서 원활히 작동하려면 높은 정확성과 낮은 지연 시간이 필요합니다. 특히, 인터넷 연결 없이 동작하는 장치에서는 연산 자원의 한계로 인해 더욱 도전적입니다. 최근 OpenAI의 Whisper는 일반적인 음성 인식 정확도를 크게 향상시켰으나, 고정된 길이의 입력을 요구하여 저지연 환경에서는 한계가 있었습니다. 이에 대한 해결책으로 소개된 Moonshine은 Whisper의 장점을 유지하면서도 실시간 처리에 최적화된 모델입니다. 이 글에서는 Moonshine의 구..