일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- LLM
- 트랜스포머
- OpenAI
- ChatGPT
- AI
- 메타
- 이미지 생성
- 자연어 처리
- 일론 머스크
- 우분투
- 오픈소스
- AI 기술
- 강화 학습
- Stable Diffusion
- 확산 모델
- 오픈AI
- 강화학습
- XAI
- 생성형AI
- 오블완
- 티스토리챌린지
- 딥러닝
- 휴머노이드 로봇
- PYTHON
- 실시간 렌더링
- tts
- 감정 표현
- 다국어 지원
- 멀티모달
- 인공지능
- Today
- Total
목록다국어 지원 (8)
AI 탐구노트

사람의 목소리는 그 사람만의 개성을 담고 있는 중요한 요소입니다. 최근 인공지능 기술은 단 몇 초의 음성만으로 특정인의 목소리를 복제하고, 이를 다양한 문장에 적용해 마치 그 사람이 말하는 것처럼 들리게 만드는 기술을 발전시켜 왔습니다. 이러한 기술은 Instant Voice Cloning(즉각 음성 복제)이라고 불리며, 특히 최근에는 AI 기반 챗봇, 콘텐츠 제작, 맞춤형 내비게이션 등에 활발히 활용되고 있습니다. 하지만 기존 기술들은 여러 한계점을 가지고 있었습니다. 목소리는 복제할 수 있지만, 그 말투나 감정, 억양, 리듬 등 세부적인 스타일은 자유롭게 조절하지 못했습니다. 또한 복제한 목소리로 다른 언어를 자연스럽게 말하게 만드는 것도 어려웠습니다. 예를 들어 영어를 말하는 목소리를 한국어나 일본..

Voxtral 이란? 지난 몇 년간 OpenAI의 Whisper는 오픈소스 음성 인식 분야에서 사실상 챔피언이었습니다. 복잡한 발음이나 다양한 억양을 높은 정확도로 인식하며, 많은 개발자와 연구자, 심지어 유튜브 자막 제작자까지 폭넓게 활용해왔습니다. 그리고 상당 수의 오픈소스 기반 ASR (음성인식) 솔루션이 이것을 이용하기도 했습니다. 하지만 Whisper는 어디까지나 ‘전사(transcribe)’에 강한 모델이었습니다. 즉, 말을 글로 옮기는 일에는 탁월했지만, 그 ‘의미’를 이해하지는 못했습니다. 이제 새로운 주자가 등장했습니다. Mistral AI의 Voxtral, 그것도 오픈소스로요! 😍 Whisper의 강력한 대안이면서, 진정한 차세대 음성 AI의 기준점으로 등장한 이 기술은, 전사에서 멈..

최근 인공지능 기술의 발전으로 텍스트를 자연스러운 음성으로 변환하는 TTS(Text-to-Speech) 기술이 주목받고 있습니다. 특히, 개인화된 음성 생성과 감정 표현이 가능한 모델에 대한 수요가 증가하고 있습니다. 이러한 흐름 속에서, 오픈 소스 기반의 ZONOS TTS 모델이 등장하여 큰 관심을 받고 있습니다. ZONOS는 20만 시간 이상의 다국어 음성 데이터를 학습하여 다양한 언어와 감정을 표현할 수 있는 TTS 모델입니다. 사용자는 자신의 음성을 복제하거나, 텍스트에 감정을 부여하여 더욱 생동감 있는 음성을 생성할 수 있습니다. 이러한 기능은 개인화된 음성 비서, 오디오북 제작, 게임 캐릭터 음성 등 다양한 분야에서 활용될 수 있습니다. ZONOS TTS의 특징1.오픈 소스 기반 텍스트 음성 ..

인공지능 기술의 발전과 함께, 텍스트를 자연스러운 음성으로 변환하는 텍스트-투-스피치(Text-to-Speech, TTS) 시스템의 수요가 급증하고 있습니다. 특히, 다양한 언어를 지원하면서도 경량화된 TTS 모델은 엣지 디바이스나 임베디드 시스템과 같은 제한된 환경에서의 활용 가능성을 높여줍니다. 얼마 전 'Kokoro-82M' 이라는 TTS 모델을 소개한 바 있었습니다. 경량 TTS 모델로 8200만개의 매개변수만으로 아주 좋은 성능과 처리 속도를 보여준다고 말입니다. 게다가 공식 지원 언어에 한국어가 들어가 있다는 장점도 있었죠. 'Local Elevenlabs'라고 불릴 정도로 사람들의 주목을 많이 끌었습니다. Kokoro-82M: 컴팩트하면서 강력한 TTS 솔루션텍스트-음성 변환(TTS)은 ..

Qwen Chat은 중국 Alibaba Cloud에서 개발한 고급 AI 챗봇입니다. OpenAI의 ChatGPT와 비슷한 녀석이라고 보시면 됩니다. 최근 공개된 공식 사이트를 가 보면 사용자 경험이 거의 ChatGPT와 유사하게 나왔습니다. 채팅, 비전 이해, 코딩 등의 영역에서 도움을 받을 수 있습니다. Qwen : 알리바바 클라우드의 Qwen 팀에서 개발한 최신 LLM 모델0.5B~72B까지 다양한 크기의 모델을 제공하며 30여개의 다양한 언어를 지원하고, 언어 이해/글 생성/코딩/수학/논리 추론 등의 영역에서 우수한 성능을 보여주고 있음. Apache 2.0 라이선스로 공개되어 활용도가 높고 성능, 기능 면에서 메타가 공개한 Llama 3의 강력한 경쟁상대로 평가 받고 있음 Qwen Chat Qwe..

텍스트-음성 변환(TTS)은 현대 인공지능 기술의 핵심적인 응용 중 하나로, 음성 인터페이스, 오디오북, 팟캐스트 제작 등 다양한 영역에서 중요한 역할을 담당하고 있습니다. 이 분야에서 새롭게 등장한 Kokoro-82M은 8,200만 개의 매개변수만으로 대형 모델을 능가하는 성능을 제공하며, 컴팩트한 크기와 효율성을 자랑합니다. 이러한 특징은 TTS 기술의 상용화를 위한 게임 체인저로 주목받고 있습니다. 특히 Kokoro-82M은 StyleTTS 2와 ISTFTNet 아키텍처를 기반으로 하여 기존 모델의 복잡한 디퓨전 메커니즘 없이 효율성을 극대화한 디코더 중심의 설계를 채택했습니다. 현 시점의 최신 버전인 0.23에서는 영어, 프랑스어, 일본어, 한국어, 중국어가 지원되고 있습니다. 전세계 지원 언어 ..

Voice-Pro는 AI 기반 음성 인식, 번역, 자막 생성, 보컬 제거 등을 통합 제공하는 그라디오 웹 UI 솔루션입니다. Voice-Pro가 제공하는 주요 기능은 다음과 같습니다. YouTube 동영상 다운로드 및 오디오 변환보컬 제거 및 잡음 제거다국어 자막 생성 및 번역 (100개 이상의 언어 지원)음성 합성(TTS) 기능으로 다국어 음성 생성실시간 음성 인식 및 번역배치 처리를 통해 대용량 파일 처리사용자 맞춤형 TTS 속도, 음량, 음정 조절MIT 라이선스 위에 소개한 기능들을 보면 오디오, 특히 음성 오디오 처리에서 꼭 필요하다 싶은 것들을 다 나열하고 있는 것 같습니다. 어떻게 이런 기능들을 다 구현했을까 의아했는데 뒤에 설명된 내용을 보고 고개를 끄덕일 수 있었습니다. 이미 있는..
베리어 프리 키오스크 (Barrier Free Kiosk) 베리어 프리 키오스크란 장애인이나 고령자, 임산부 등 다양한 사용자들이 쉽게 접근하고 사용할 수 있도록 설계된 무인 정보 단말기를 의미하면 다음과 같은 특징을 가지고 있습니다. 물리적 접근성 측면높이, 위치, 조작부 크기와 배열 등이 휠체어나 키 작은 사람들도 쉽게 접근할 수 있도록, 그리고 입력 방식도 터치스크린 외에 버튼, 레버, 음성 인식, 동작 인식 등 다양하게 지원되도록 설계됩니다. 시각적 접근성 측면시각 장애인을 위해 화면의 텍스트 크기를 조절하거나 음성 안내를 하거나 점자 디스플레이/키보드 등을 제공합니다. 청각적 접근성 측면청각 장애인을 위해 시각적인 안내를 강화하거나 자막이나 화면 내용을 텍스트로 변환하거나 수화 표현 또는 동작 ..