일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- TRANSFORMER
- 일론 머스크
- 딥마인드
- 아두이노
- 우분투
- 이미지 편집
- 오픈AI
- LLM
- 인공지능
- 가상환경
- AI 기술
- javascript
- 시간적 일관성
- PYTHON
- 확산 모델
- OpenAI
- ControlNet
- 서보모터
- 오블완
- 트랜스포머
- AI
- 메타
- 멀티모달
- tts
- LORA
- ChatGPT
- 뉴럴링크
- ubuntu
- 티스토리챌린지
- 생성형 AI
- Today
- Total
목록2024/09/01 (3)
AI 탐구노트
소리가 포함되어 있지 않은 비디오 영상에서 사람의 입모양에 맞는 음성을 생성해내는 Lip to Speech 합성 모델 RobustL2S' 모델은 소리가 포함되어 있지 않은 비디오 영상에서 사람의 입모양에 맞는 음성을 생성해내는 Lip to Speech 합성 모델입니다. 소리를 듣지 못하는 청각장애인들이 상대방의 입모양을 봐가며 의사소통을 해야하는 경우가 있는데, 바로 그런 상황에서 활용할 수 있는 모델이라고 보시면 됩니다.예전에 기사에서 COVID 19 때문에 마스크 착용이 의무화되었을 때 사람들간의 의사소통에 어려움이 있었다는 기사를 본 적이 있는 것 같습니다. 아무래도 귀에 들리는 소리만으로 하는 의사소통보다는 상대의 입술 모양을 봐가며 하는 의사소통이 더 많은 정보를 전달할 수 있기 때문에 그런 것..
재생가능한 에너지 저장에 사용할 새로운 촉매를 모델링하고 발견하기 위한 프로젝트 Open Catalyst 프로젝트는 Meta와 카네기 멜론대학 간의 공동 연구 결과로 발표되었는데 목표는 재생가능한 에너지 저장에 사용할 새로운 촉매를 모델링하고 발견하는 것으로, 이를 위한 데이터셋과 머신러닝 라이브러리를 제공합니다. 기존에는 이를 위해 물리적 실험 또는 DFT(Density Functional Theory)를 이용한 계산 시뮬레이션 방법을 이용했는데 너무 느리고 어렵다는 단점이 있었다고 하며 이를 머신러닝을 이용하는 방식으로 바꿔 기존 대비 1000배 이상 빠르게 물질의 반응성을 시뮬레이션 할 수 있도록 했다고 합니다. (이런 화학 분야는 문외한에 가까워 기술적으로는 언급하지 않겠습니다. ^^;) 여튼 ..
마이크로소프트가 공개한 다국어 TTS 모델 VALL-E X는 Microsoft가 개발한 Cross-lingual 음성 합성 모델로, 하나의 언어로 된 음성을 다른 언어로 변환합니다. 이 모델은 음성의 감정과 음색을 유지하면서, 학습된 데이터 없이 새로운 언어로 음성을 생성할 수 있는 기능을 갖추고 있습니다. 이를 통해 제로샷 텍스트-음성 합성 및 음성-음성 번역을 지원합니다. VALL-E X는 외국 억양을 효과적으로 제어할 수 있으며, 감정 유지 및 코드 스위칭 기능도 제공합니다. 사용상의 윤리적 문제를 예방하기 위한 조치도 고려되었다고 하죠. 텍스트 프롬프트, 오디오 파일 등을 입력으로 해서 다국어 TTS와 제로샷 음성 복제 기능을 제공하는데, 6GB VRAM의 GPU 혹은 CPU에서도 동작된다고 합니..