일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 오블완
- AI 기술
- 인공지능
- 시간적 일관성
- LLM
- Stable Diffusion
- LORA
- 오픈AI
- 우분투
- 강화 학습
- 코딩
- PYTHON
- OpenAI
- 메타
- 생성형AI
- 오픈소스
- 일론 머스크
- ubuntu
- 딥러닝
- 트랜스포머
- 티스토리챌린지
- 확산 모델
- tts
- OpenCV
- 휴머노이드 로봇
- 3d 재구성
- 다국어 지원
- 실시간 렌더링
- AI
- 생성형 AI
- Today
- Total
목록다국어 지원 (6)
AI 탐구노트

최근 인공지능 기술의 발전으로 텍스트를 자연스러운 음성으로 변환하는 TTS(Text-to-Speech) 기술이 주목받고 있습니다. 특히, 개인화된 음성 생성과 감정 표현이 가능한 모델에 대한 수요가 증가하고 있습니다. 이러한 흐름 속에서, 오픈 소스 기반의 ZONOS TTS 모델이 등장하여 큰 관심을 받고 있습니다. ZONOS는 20만 시간 이상의 다국어 음성 데이터를 학습하여 다양한 언어와 감정을 표현할 수 있는 TTS 모델입니다. 사용자는 자신의 음성을 복제하거나, 텍스트에 감정을 부여하여 더욱 생동감 있는 음성을 생성할 수 있습니다. 이러한 기능은 개인화된 음성 비서, 오디오북 제작, 게임 캐릭터 음성 등 다양한 분야에서 활용될 수 있습니다. ZONOS TTS의 특징1.오픈 소스 기반 텍스트 음성 ..

인공지능 기술의 발전과 함께, 텍스트를 자연스러운 음성으로 변환하는 텍스트-투-스피치(Text-to-Speech, TTS) 시스템의 수요가 급증하고 있습니다. 특히, 다양한 언어를 지원하면서도 경량화된 TTS 모델은 엣지 디바이스나 임베디드 시스템과 같은 제한된 환경에서의 활용 가능성을 높여줍니다. 얼마 전 'Kokoro-82M' 이라는 TTS 모델을 소개한 바 있었습니다. 경량 TTS 모델로 8200만개의 매개변수만으로 아주 좋은 성능과 처리 속도를 보여준다고 말입니다. 게다가 공식 지원 언어에 한국어가 들어가 있다는 장점도 있었죠. 'Local Elevenlabs'라고 불릴 정도로 사람들의 주목을 많이 끌었습니다. Kokoro-82M: 컴팩트하면서 강력한 TTS 솔루션텍스트-음성 변환(TTS)은 ..

Qwen Chat은 중국 Alibaba Cloud에서 개발한 고급 AI 챗봇입니다. OpenAI의 ChatGPT와 비슷한 녀석이라고 보시면 됩니다. 최근 공개된 공식 사이트를 가 보면 사용자 경험이 거의 ChatGPT와 유사하게 나왔습니다. 채팅, 비전 이해, 코딩 등의 영역에서 도움을 받을 수 있습니다. Qwen : 알리바바 클라우드의 Qwen 팀에서 개발한 최신 LLM 모델0.5B~72B까지 다양한 크기의 모델을 제공하며 30여개의 다양한 언어를 지원하고, 언어 이해/글 생성/코딩/수학/논리 추론 등의 영역에서 우수한 성능을 보여주고 있음. Apache 2.0 라이선스로 공개되어 활용도가 높고 성능, 기능 면에서 메타가 공개한 Llama 3의 강력한 경쟁상대로 평가 받고 있음 Qwen Chat Qwe..

텍스트-음성 변환(TTS)은 현대 인공지능 기술의 핵심적인 응용 중 하나로, 음성 인터페이스, 오디오북, 팟캐스트 제작 등 다양한 영역에서 중요한 역할을 담당하고 있습니다. 이 분야에서 새롭게 등장한 Kokoro-82M은 8,200만 개의 매개변수만으로 대형 모델을 능가하는 성능을 제공하며, 컴팩트한 크기와 효율성을 자랑합니다. 이러한 특징은 TTS 기술의 상용화를 위한 게임 체인저로 주목받고 있습니다. 특히 Kokoro-82M은 StyleTTS 2와 ISTFTNet 아키텍처를 기반으로 하여 기존 모델의 복잡한 디퓨전 메커니즘 없이 효율성을 극대화한 디코더 중심의 설계를 채택했습니다. 현 시점의 최신 버전인 0.23에서는 영어, 프랑스어, 일본어, 한국어, 중국어가 지원되고 있습니다. 전세계 지원 언어 ..

Voice-Pro는 AI 기반 음성 인식, 번역, 자막 생성, 보컬 제거 등을 통합 제공하는 그라디오 웹 UI 솔루션입니다. Voice-Pro가 제공하는 주요 기능은 다음과 같습니다. YouTube 동영상 다운로드 및 오디오 변환보컬 제거 및 잡음 제거다국어 자막 생성 및 번역 (100개 이상의 언어 지원)음성 합성(TTS) 기능으로 다국어 음성 생성실시간 음성 인식 및 번역배치 처리를 통해 대용량 파일 처리사용자 맞춤형 TTS 속도, 음량, 음정 조절MIT 라이선스 위에 소개한 기능들을 보면 오디오, 특히 음성 오디오 처리에서 꼭 필요하다 싶은 것들을 다 나열하고 있는 것 같습니다. 어떻게 이런 기능들을 다 구현했을까 의아했는데 뒤에 설명된 내용을 보고 고개를 끄덕일 수 있었습니다. 이미 있는..
베리어 프리 키오스크 (Barrier Free Kiosk) 베리어 프리 키오스크란 장애인이나 고령자, 임산부 등 다양한 사용자들이 쉽게 접근하고 사용할 수 있도록 설계된 무인 정보 단말기를 의미하면 다음과 같은 특징을 가지고 있습니다. 물리적 접근성 측면높이, 위치, 조작부 크기와 배열 등이 휠체어나 키 작은 사람들도 쉽게 접근할 수 있도록, 그리고 입력 방식도 터치스크린 외에 버튼, 레버, 음성 인식, 동작 인식 등 다양하게 지원되도록 설계됩니다. 시각적 접근성 측면시각 장애인을 위해 화면의 텍스트 크기를 조절하거나 음성 안내를 하거나 점자 디스플레이/키보드 등을 제공합니다. 청각적 접근성 측면청각 장애인을 위해 시각적인 안내를 강화하거나 자막이나 화면 내용을 텍스트로 변환하거나 수화 표현 또는 동작 ..