| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- 자동화
- 딥러닝
- 오블완
- 일론 머스크
- 강화학습
- OpenAI
- 트랜스포머
- 이미지 생성
- 메타
- tts
- 생성형AI
- XAI
- 인공지능
- ChatGPT
- 멀티모달
- 음성 인식
- 오픈AI
- 바이브코딩
- AI
- 티스토리챌린지
- gaussian splatting
- 감정 표현
- AI 기술
- 음성합성
- LLM
- PYTHON
- 이미지 편집
- 오픈소스
- 확산 모델
- 우분투
- Today
- Total
목록realtime api (2)
AI 탐구노트
지난 번 소개글에 이어 Speech-to-Speech 모델인 gpt-realtime을 실제 테스트 해 보기로 했습니다. 이 모델을 OpenAI 의 API를 이용하는 것으로 OpenAI의 API Key가 있어야 합니다. 연동하는 과정을 한번 쭉 따라가 보도록 하겠습니다. (단, 결과적으로 완전하게 동작하는 단계는 아직 아닙니다! 마지막 단계에서 하나가 걸렸는데 그 부분은 글 끝에서 확인하시면 될 것 같습니다) 1.구현 요건서버 : Python, FastAPI 이용클라이언트 : html / javascript / css 이용한 web UI, webRTC를 이용한 데이터 전송, 사용자 마이크 이용필요 기능입력/출력 언어 선택 UI : 입력언어 (기본 자동 감지), 출력언어(특정 언어 지정)오디오 출력 토글 :..
gpt-realtime은 OpenAI가 자사의 공식 블로그를 통해 8/28일에 공개한 음성 에이전트 모델입니다. 북마크만 해두고 있었는데 이제 생각이 나서 이것도 간략하게 정리만 해 두고 가겠습니다. gpt-realtime 모델 소개OpenAI의 가장 진화된 speech-to-speech 모델입니다. (참고: Whisper는 text to speech 용 ASR 모델)자연스러운 감정 표현, 말투, 속도 등을 더 정교하게 제어할 수 있으며, 복잡한 지시사항도 더 잘 따릅니다. gpt-realtime 특징 1️⃣ 향상된 오디오 품질더욱 자연스러운 대화를 위해 모델의 억양, 감정, 말의 리듬 등을 개선했습니다.예) '빠르고 전문적으로 말해줘', '공감 있는 프랑스식 억양으로 말해줘'와 같은 세밀한 지시도 정확..
