Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 실시간 렌더링
- ChatGPT
- 아두이노
- LLM
- 일론 머스크
- 강화 학습
- PYTHON
- AI
- 휴머노이드 로봇
- 확산 모델
- 멀티모달
- 오블완
- LORA
- 오픈소스
- TRANSFORMER
- 오픈AI
- OpenAI
- OpenCV
- 딥러닝
- 생성형 AI
- AI 기술
- 이미지 생성
- tts
- 우분투
- 인공지능
- 다국어 지원
- 트랜스포머
- 시간적 일관성
- 메타
- 티스토리챌린지
Archives
- Today
- Total
목록clap (1)
AI 탐구노트

현대의 인공지능(AI) 모델들은 자연어 처리(NLP)와 이미지 인식 분야에서 비약적인 발전을 이루었지만, 오디오를 효과적으로 이해하고 추론하는 능력은 여전히 제한적입니다. 인간은 비언어적 소리, 음악, 환경음을 통해 감정과 상황을 해석할 수 있으며, AI 역시 이러한 능력을 갖춘다면 보다 자연스럽고 직관적인 상호작용이 가능해지겠죠. 최근 몇 년간 오디오-언어 모델(Audio-Language Model, ALM)이 발전하면서 AI의 청각적 이해력도 향상되고 있습니다. 대표적으로 Contrastive Language-Audio Pre-training(CLAP) 같은 모델은 오디오와 언어 간의 관계를 학습하는 데 사용되어 왔지만, 기존 ALM은 짧은 오디오(최대 30초)만을 처리할 수 있었고, 전문가 수준의 ..
AI 기술
2025. 3. 13. 16:09