Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- ubuntu
- 실시간 렌더링
- PYTHON
- 메타
- Stable Diffusion
- tts
- 트랜스포머
- LLM
- 시간적 일관성
- 오픈AI
- 일론 머스크
- 오블완
- 티스토리챌린지
- AI 기술
- 다국어 지원
- 확산 모델
- 인공지능
- AI
- 딥러닝
- 생성형 AI
- OpenAI
- 오픈소스
- 휴머노이드 로봇
- 강화 학습
- 우분투
- 생성형AI
- 3d 재구성
- LORA
- OpenCV
- 코딩
Archives
- Today
- Total
목록cross-attention (1)
AI 탐구노트

현대의 인공지능(AI) 모델들은 자연어 처리(NLP)와 이미지 인식 분야에서 비약적인 발전을 이루었지만, 오디오를 효과적으로 이해하고 추론하는 능력은 여전히 제한적입니다. 인간은 비언어적 소리, 음악, 환경음을 통해 감정과 상황을 해석할 수 있으며, AI 역시 이러한 능력을 갖춘다면 보다 자연스럽고 직관적인 상호작용이 가능해지겠죠. 최근 몇 년간 오디오-언어 모델(Audio-Language Model, ALM)이 발전하면서 AI의 청각적 이해력도 향상되고 있습니다. 대표적으로 Contrastive Language-Audio Pre-training(CLAP) 같은 모델은 오디오와 언어 간의 관계를 학습하는 데 사용되어 왔지만, 기존 ALM은 짧은 오디오(최대 30초)만을 처리할 수 있었고, 전문가 수준의 ..
AI 기술
2025. 3. 13. 16:09