Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- ChatGPT
- 메타
- PYTHON
- 음성 인식
- 확산 모델
- XAI
- 강화학습
- OpenAI
- 이미지 생성
- LLM
- 인공지능
- AI 기술
- 바이브코딩
- 티스토리챌린지
- 우분투
- 감정 표현
- tts
- 딥러닝
- 일론 머스크
- AI
- 생성형AI
- 멀티모달
- 트랜스포머
- 오블완
- 이미지 편집
- 오픈AI
- 음성합성
- 오픈소스
- gaussian splatting
- 자동화
Archives
- Today
- Total
목록DiffusionTransformer (1)
AI 탐구노트
요즘 AI는 보는 것만큼이나 듣는 것을 잘해야 합니다. 영상에서 특정 사람 목소리만 또렷하게 만들거나, 회의 녹음에서 키보드 소리만 지우는 작업은 생각보다 자주 필요하죠. 그런데 현실의 소리는 늘 섞여 있습니다. 말소리, 음악, 주변 소음이 동시에 들어오고, 사람마다 원하는 소리의 기준도 다르죠. 그래서 고정된 카테고리(예 : 보컬/드럼/베이스)만 분리하는 방식은 한계가 분명했습니다.최근 트렌드는 프롬프트로 조작 가능한 AI라고 할 수 있습니다. 이번 논문에서는 이런 흐름을 오디오로 확장합니다. 텍스트 프롬프트로 ‘개 짖는 소리만’이라고 말하거나, 영상에서 강아지 영역을 클릭해서 ‘저기서 나는 소리만' 뽑는 식이죠. 텍스트로 '무엇'을, 비주얼 마스크로 '어디'를, 시간 구간으로 '언제'를, 이렇게 세 ..
AI 기술
2025. 12. 19. 14:24
