'DiffusionTransformer' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록DiffusionTransformer (1)

AI 탐구노트

SAM Audio : 멀티모달 프롬프트로 원하는 소리만 분리해서 뽑아낸다고?

요즘 AI는 보는 것만큼이나 듣는 것을 잘해야 합니다. 영상에서 특정 사람 목소리만 또렷하게 만들거나, 회의 녹음에서 키보드 소리만 지우는 작업은 생각보다 자주 필요하죠. 그런데 현실의 소리는 늘 섞여 있습니다. 말소리, 음악, 주변 소음이 동시에 들어오고, 사람마다 원하는 소리의 기준도 다르죠. 그래서 고정된 카테고리(예 : 보컬/드럼/베이스)만 분리하는 방식은 한계가 분명했습니다.최근 트렌드는 프롬프트로 조작 가능한 AI라고 할 수 있습니다. 이번 논문에서는 이런 흐름을 오디오로 확장합니다. 텍스트 프롬프트로 ‘개 짖는 소리만’이라고 말하거나, 영상에서 강아지 영역을 클릭해서 ‘저기서 나는 소리만' 뽑는 식이죠. 텍스트로 '무엇'을, 비주얼 마스크로 '어디'를, 시간 구간으로 '언제'를, 이렇게 세 ..

AI 기술 2025. 12. 19. 14:24

이전 Prev 1 Next 다음

목록DiffusionTransformer (1)

AI 탐구노트

티스토리툴바