Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- 딥러닝
- LORA
- TRANSFORMER
- 일론 머스크
- 오픈소스
- ubuntu
- 티스토리챌린지
- 확산 모델
- 멀티모달
- LLM
- AI
- 오픈AI
- 오블완
- 다국어 지원
- Stable Diffusion
- OpenCV
- PYTHON
- 메타
- 시간적 일관성
- OpenAI
- 생성형 AI
- tts
- AI 기술
- 인공지능
- 우분투
- 강화 학습
- 트랜스포머
- 아두이노
- 휴머노이드 로봇
- ChatGPT
Archives
- Today
- Total
AI 탐구노트
ChatMusician : 텍스트로 음악을 이해하고 생성하는 모델 본문
텍스트로 음악을 이해하고 생성하는 오픈소스 LLM 모델
ChatMusician는 음악을 생성하는 오픈소스 LLM 모델입니다.
여기에는 LLaMA2가 적용되어 있으며 음악의 텍스트 호환 음악 표현, ABC 표기법 등을 사전 훈련하고 미세조정을 거쳤습니다.
일반적으로 음악이라고 하면 아... 당연히 멀티모달 방식이겠구나 하실 수도 있는데 ChatMusian의 경우에는 순수하게 텍스트 토크나이저로 음악을 이해하고 생성합니다. 게다가 텍스트, 코드, 멜로디, 모티브, 음악 형식 등을 조건으로 구조화된 음악을 구성할 수 있다고 하네요.
사전 훈련에 사용한 코퍼스 데이터는 MusicPie 것인데, 훈련 데이터 대부분이 아일랜드 음악 스타일이라고 하며 형식도 아직은 엄격히 정의된 형식과 폐쇄형 지침만 지원되는 제약 사항이 있다고 합니다.
공개된 코드를 이용하면 Gradio를 이용해 직접 테스트해 볼 수도 있습니다.
'AI 기술' 카테고리의 다른 글
Phi-1.5 : 고품질 학습 데이터로 학습한 sLM (0) | 2024.08.27 |
---|---|
Multi-LoRA Switch & Composite : 복수 LoRA 통합의 새로운 방식 (0) | 2024.08.27 |
TripoSR : 고품질의 3D 모델 생성 도구 (0) | 2024.08.26 |
BitNet 1.58B : 1bit 양자화 기반 LLM 구현 기술 (0) | 2024.08.26 |
MusicHiFi : 모노 음원을 스테레오로, 저음질을 고음질로 변환 (0) | 2024.08.26 |