'FlowMatching' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록FlowMatching (2)

AI 탐구노트

JAM : 단어 단위 타이밍 제어와 미적 정렬을 갖춘 소형 가사-노래 생성 모델

음악 생성 AI는 이제 ‘그럴듯한 샘플’을 만드는 단계를 넘어, 작업 흐름 안에서 실제로 써먹을 수 있는 도구로 바뀌고 있습니다. 특히 텍스트를 오디오로 바꾸는 생성 모델이 빠르게 발전하면서, 분위기나 장르를 말로 지시해 연주를 만들거나, 가사에 맞춰 보컬을 합성하는 일도 점점 쉬워졌죠. 그런데 막상 창작자가 원하는 건 ‘멋진 한 번’이 아니라, 원하는 위치에 원하는 단어를 정확히 얹는 능력인 경우가 많습니다. 이 지점에서 ‘통제 가능성’이 품질만큼 중요해집니다. 하지만 기존 가사-노래 생성 모델들은 보통 문장 단위 또는 더 거친 수준의 제어만 제공해서, 단어 하나의 시작과 끝을 잡아 당기며 리듬을 다듬기 어렵습니다. 그 결과 가사가 뭉개지거나 빠지고, 보컬과 반주가 어긋나는 일이 생깁니다. 이 논문은 ..

AI 기술 2026. 1. 12. 16:38

SAM Audio : 멀티모달 프롬프트로 원하는 소리만 분리해서 뽑아낸다고?

요즘 AI는 보는 것만큼이나 듣는 것을 잘해야 합니다. 영상에서 특정 사람 목소리만 또렷하게 만들거나, 회의 녹음에서 키보드 소리만 지우는 작업은 생각보다 자주 필요하죠. 그런데 현실의 소리는 늘 섞여 있습니다. 말소리, 음악, 주변 소음이 동시에 들어오고, 사람마다 원하는 소리의 기준도 다르죠. 그래서 고정된 카테고리(예 : 보컬/드럼/베이스)만 분리하는 방식은 한계가 분명했습니다.최근 트렌드는 프롬프트로 조작 가능한 AI라고 할 수 있습니다. 이번 논문에서는 이런 흐름을 오디오로 확장합니다. 텍스트 프롬프트로 ‘개 짖는 소리만’이라고 말하거나, 영상에서 강아지 영역을 클릭해서 ‘저기서 나는 소리만' 뽑는 식이죠. 텍스트로 '무엇'을, 비주얼 마스크로 '어디'를, 시간 구간으로 '언제'를, 이렇게 세 ..

AI 기술 2025. 12. 19. 14:24

이전 Prev 1 Next 다음

목록FlowMatching (2)

AI 탐구노트

티스토리툴바