| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 바이브코딩
- 확산 모델
- AI
- ChatGPT
- PYTHON
- 생성형AI
- LLM
- 음성합성
- 멀티모달
- 오픈소스
- OpenAI
- AI 기술
- 트랜스포머
- tts
- gaussian splatting
- 메타
- 우분투
- 오블완
- 딥러닝
- 일론 머스크
- 티스토리챌린지
- 강화학습
- 인공지능
- 오픈AI
- 자동화
- 음성 인식
- 이미지 편집
- XAI
- 이미지 생성
- 감정 표현
- Today
- Total
목록tts (15)
AI 탐구노트
초등생인 아이가 영어와 가까워지는 것을 싫어해서 혹시나 하는 마음에 게임처럼 만들어 봤습니다. 결론적으로 한번 해보면서 신기해 하더니 금새 관심을 끊더군요. 시크한 아이 키우시는 부모님들은 저같은 시행착오는 안 하셔도 될 것 같습니다. ^^; 영어 단어 퀴즈1.시스템 구성대략 다음과 같습니다. 어디까지나 데모용이니까 이렇게 하는거지 동시 사용자가 많이 생긴다면 다른 구조를 가져가야 할 겁니다. 적용한 기술은 사실 예전 다국어 번역 프로그램 만들 때 사용했던 것(Whisper STT, SuperTone TTS)을 활용했습니다. 공부한 걸 재활용하는 아나바다 정신... ^^ 그런데, 한국어, 영어 정도만 한다면 서버 쪽 STT, TTS를 사용하지 않아도 할 수 있을 것 같긴 합니다. 하지만 이건 다음 ..
요즘 음성 AI는 단순히 말을 읽어 주는 기계가 아니라 사람처럼 말하는 파트너로 기대치가 바뀌고 있습니다. 같은 문장이라도 뉴스처럼 또박또박, 친구처럼 가볍게, 혹은 위로하듯 천천히 말하는 게 다르니까요. 그래서 최근 TTS(Text-to-Speech)는 발음 정확도 뿐 아니라 감정, 억양, 분위기 같은 표현력이 더 중요해졌습니다. 하지만 표현력을 높이려다 보면 시스템이 불안정해지는 문제가 자주 생깁니다. 특히 기존 방식은 음성을 잘게 쪼개 토큰으로 만든 뒤이를 예측하는 구조가 대부분인데, 이 과정에서 미세한 음색·숨결 같은 디테일이 사라지기도 합니다. 반대로 토큰 없이 연속값(연속적인 음성 신호)을 직접 만들면 디테일은 살지만, 긴 문장에서 오류가 누적돼 말이 제대로 구성되지 않는 경우가 발생됩니다. ..
최근 청기백기 게임을 만들어보면서 자체 TTS 기능을 이용할 경우, 음성 품질이 너무 떨어지는 것 같아서 실시간으로 사용할 수 있는 가벼운 TTS를 찾아보고 있습니다. 그러다 KororoTTS의 경우, 가볍지만 음성 복제가 안 되니 제공되는 것만 사용해야 해서 제약사항이 크죠. 그러다 발견한 것이 PocketTTS 입니다. 이번 글에서는 PocketTTS에 대해 간략히 소개 드리겠습니다. 1️⃣ PocketTTS 개요 Kyutai (프랑스 스타트업)라는 곳에서 공개한 CPU 친화형 경량 TTS입니다. Kyutai에서는 PocketTTS (경량 모델), KyutaiTTS 1.6B (좀 더 큰 스트리밍 모델)을 공개함약 1억(100M) 파라미터의 작은 모델보이스 클로닝(음성 프롬프트 기반)을 지원 2️⃣..
예전에 소개했던 ChatterboxTTS를 이용해 음성 합성을 해야할 상황이 있어서 Gradio앱을 생성했습니다. HuggingFace나 github 상에서 기본 제공되는 것이 있긴 하지만 새로 나온 Turbo와 Multilingual(23개 다국어지원)을 하나의 Web UI로 사용하고 싶었기 때문에 약간의 작업이 필요했습니다. 게다가 처음 Chatterbox가 나왔을 때는 영어만 지원했었기 때문에 관심을 두지 않았었는데, Multilingual 버전이 나오면서 한국어도 잘 지원됩니다. 그러니 구현만 간단하다면 사용하지 않을 이유가 없겠죠? 하지만... '숨어 있는 함정'이 하나 있었습니다. 1️⃣ 결과물 최종 결과물은 다음과 같습니다. ChatGPT를 이용한 것이라 불필요한 코드도 제법 있습니다. ..
최근 인공지능 기술의 발전으로 스마트폰, 자동차, 가전제품 등 다양한 디바이스에 음성 인식 기능이 빠르게 확산되고 있습니다. 특히 인터넷 없이도 동작 가능한 '온디바이스(On-device)' 음성 인식 시스템이 주목받고 있는데, 이는 개인정보 보호와 빠른 반응 속도라는 장점을 가지고 있기 때문입니다. 그러나 대부분의 고성능 음성 인식 모델은 대규모 컴퓨팅 자원을 필요로 하며, 영어 이외의 언어에 대한 성능은 떨어지는 경우가 많았습니다. Moonshine은 작년 겨울에 최초 공개된 모델로 당시에는 영문만 제대로 지원되었었습니다. (관련글) 이번에 추가로 공개된 음성 인식 모델 시리즈는 초소형 크기(약 2700만 개의 파라미터)로 동작하면서도, 아랍어, 중국어, 일본어, 한국어, 우크라이나어, 베트남어 등 ..
X를 보다가 어떤 분이 올리신 글에 Kitten TTS라는색다른 TTS가 언급되어 있어 찾아봤습니다. OpenAI와 xAI 등 새로운 AI 서비스가 잔뜩 소개되는 시기였는데 어떤 Leaderboard에 자기가 만든 것이 맨 위에 올라가 있더라며 다소 의아해하며 올리셨던 것 같습니다. (그 링크를 다시 찾아보려고 했는데... 실패~) Kitten TTS는 경량화와 고품질 음성 합성을 동시에 추구하는 오픈소스 TTS 모델로, CPU만으로 동작 가능한 25MB의 초소형 모델 크기가 강점입니다. 딱 여기까지 설명하면 중요한 특징이 다 나왔습니다. 사실 TTS 분야에서는 알려진 모델들이 다수 있습니다. 그마나 최근 기준으로 본다고 하더라도 Fish-speech, F5-TTS, Chatterbox, Dia, Pi..
2023년 구글에서는 NotebookLM이라는 것을 공개했습니다. 처음에는 프로젝트명 'Tailwind'라는 것으로 명명되어 있었죠. 그러다 2024년 12월에 Gemini 구독자들을 대상으로 NotebookLM Plus가 정식 서비스가 출시됐습니다. 사용자가 업로드한 파일, 콘텐츠를 기반으로 해서 내용을 분석한 뒤 이에 대한 요약과 설명, 답변을 달 수 있도록 하면서 동시에 팟캐스트 스타일의 오디오 오버뷰 기능을 포함했습니다. 당시 이 서비스를 소개하는 유튜브 영상을 보면서 저도 우와... 하면서 한동안 입을 다물지 못했었습니다. 팟캐스트 제작에 소요되는 비용가 인력 공수 자체가 이제는 불필요해지는 거 아닌가 하는 생각을 했었죠. 내가 원하는 주제로, 그것도 바로 즉석으로 서로 티티카카를 주고 받아가며..
Chatterbox란?Chatterbox는 Resemble AI에서 개발한 오픈소스 텍스트-음성 변환(Text-to-Speech, TTS) 모델로, 고품질 음성 합성과 음성 클로닝 기능을 제공합니다. MIT 라이선스로 배포되어 누구나 자유롭게 사용할 수 있으며, 특히 감정 표현 조절과 실시간 음성 합성 기능이 특징입니다. Chatterbox의 주요 특징제로샷 음성 클로닝 : 단 몇 초의 참조 음성만으로 새로운 음성을 클로닝할 수 있습니다. 추가 학습 없이도 다양한 음성을 생성할 수 있습니다. 감정 수준 조절 : exaggeration 파라미터를 통해 음성의 감정 표현 강도를 조절할 수 있어, 단조로운 음성부터 극적인 표현까지 다양하게 생성할 수 있습니다.실시간 음성 합성 : 200ms 이하의 지연 시간..
Dia-1.6B는 Nari Labs에서 개발한 16억 파라미터 규모의 텍스트-대화(Text-to-Speech, TTS) 모델입니다. Nari 라는 프로젝트 이름을 사용하는 한국 개발자 분들이 만든 모델입니다. X에 올라온 글을 보면 학부생 2명 (한명은 군 복무 중)이 지원금 전혀 없이 개발했다고 합니다. 참고로 'Nari'는 개나리에서 따 온 이름입니다. (사이트의 로고와 꽃잎의 장수를 보면 감 잡히시죠?) 1.모델 특징Dia-1.6B TTS 모델의 주요 특징은 다음과 같습니다. 현실적인 대화 생성 : 텍스트 스크립트를 기반으로 다중 캐릭터 대화를 단일 패스로 생성 -> 자연스럽고 빠른 음성 출력 제공 (기존 TTS 모델처럼 개별 발화를 합치는 방식이 아니라 전체 대화를 한 번에 처리)감정 및 톤 ..
텍스트-음성 변환(TTS)은 현대 인공지능 기술의 핵심적인 응용 중 하나로, 음성 인터페이스, 오디오북, 팟캐스트 제작 등 다양한 영역에서 중요한 역할을 담당하고 있습니다. 이 분야에서 새롭게 등장한 Kokoro-82M은 8,200만 개의 매개변수만으로 대형 모델을 능가하는 성능을 제공하며, 컴팩트한 크기와 효율성을 자랑합니다. 이러한 특징은 TTS 기술의 상용화를 위한 게임 체인저로 주목받고 있습니다. 특히 Kokoro-82M은 StyleTTS 2와 ISTFTNet 아키텍처를 기반으로 하여 기존 모델의 복잡한 디퓨전 메커니즘 없이 효율성을 극대화한 디코더 중심의 설계를 채택했습니다. 현 시점의 최신 버전인 0.23에서는 영어, 프랑스어, 일본어, 한국어, 중국어가 지원되고 있습니다. 전세계 지원 언어 ..