Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- AI
- 메타
- 이미지 생성
- 자동화
- 이미지 편집
- 오픈AI
- 인공지능
- 생성형AI
- 바이브코딩
- 강화학습
- 일론 머스크
- LLM
- 오블완
- 확산 모델
- gaussian splatting
- 딥러닝
- AI 기술
- 티스토리챌린지
- 우분투
- 트랜스포머
- 음성합성
- ChatGPT
- 오픈소스
- XAI
- 음성 인식
- 감정 표현
- 멀티모달
- PYTHON
- OpenAI
- tts
Archives
- Today
- Total
목록FSQ (1)
AI 탐구노트
요즘 음성 AI는 단순히 말을 읽어 주는 기계가 아니라 사람처럼 말하는 파트너로 기대치가 바뀌고 있습니다. 같은 문장이라도 뉴스처럼 또박또박, 친구처럼 가볍게, 혹은 위로하듯 천천히 말하는 게 다르니까요. 그래서 최근 TTS(Text-to-Speech)는 발음 정확도 뿐 아니라 감정, 억양, 분위기 같은 표현력이 더 중요해졌습니다. 하지만 표현력을 높이려다 보면 시스템이 불안정해지는 문제가 자주 생깁니다. 특히 기존 방식은 음성을 잘게 쪼개 토큰으로 만든 뒤이를 예측하는 구조가 대부분인데, 이 과정에서 미세한 음색·숨결 같은 디테일이 사라지기도 합니다. 반대로 토큰 없이 연속값(연속적인 음성 신호)을 직접 만들면 디테일은 살지만, 긴 문장에서 오류가 누적돼 말이 제대로 구성되지 않는 경우가 발생됩니다. ..
AI 기술
2026. 1. 22. 12:02
