| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- 오픈소스
- PYTHON
- 음성 인식
- 이미지 편집
- AI
- ChatGPT
- LLM
- OpenAI
- 감정 표현
- 생성형AI
- 이미지 생성
- 메타
- AI 기술
- 트랜스포머
- 자동화
- gaussian splatting
- 확산 모델
- 오픈AI
- tts
- XAI
- 티스토리챌린지
- 멀티모달
- 일론 머스크
- 강화학습
- 바이브코딩
- 오블완
- 음성합성
- 우분투
- 딥러닝
- 인공지능
- Today
- Total
목록STT (2)
AI 탐구노트
초등생인 아이가 영어와 가까워지는 것을 싫어해서 혹시나 하는 마음에 게임처럼 만들어 봤습니다. 결론적으로 한번 해보면서 신기해 하더니 금새 관심을 끊더군요. 시크한 아이 키우시는 부모님들은 저같은 시행착오는 안 하셔도 될 것 같습니다. ^^; 영어 단어 퀴즈1.시스템 구성대략 다음과 같습니다. 어디까지나 데모용이니까 이렇게 하는거지 동시 사용자가 많이 생긴다면 다른 구조를 가져가야 할 겁니다. 적용한 기술은 사실 예전 다국어 번역 프로그램 만들 때 사용했던 것(Whisper STT, SuperTone TTS)을 활용했습니다. 공부한 걸 재활용하는 아나바다 정신... ^^ 그런데, 한국어, 영어 정도만 한다면 서버 쪽 STT, TTS를 사용하지 않아도 할 수 있을 것 같긴 합니다. 하지만 이건 다음 ..
최근 실시간 자막이 필요한 상황이 있어서 바이브 코딩으로, 일반 PC에서 사용할 수 있도록 한번 만들어 봤습니다. 그 과정을 간단하게 정리해 보겠습니다. 실시간 자막 오버레이 1.개요 '실시간 자막' 기능은 크롬을 이용해 인터넷을 돌아다니다 보면 한번쯤은 경험할 수 있습니다. 제 경우도 구글 크롬의 'Live Caption' 기능을 자주 활용하는 편인데, 비단 웹 사이트 뿐만 아니라 마이크 입력이나 다른 주변 소리에도 적용할 수 있어서 가끔은 활용합니다. 이번에 개발하려고 하는 것에 대한 개요는 다음과 같습니다. 목표 : 컴퓨터 마이크 음성을 실시간으로 받아 자막을 생성하고, 어떤 앱 위에도 하단 오버레이로 표시활용 : 강의나 발표, 실시간 통역 보조, 접근성 향상(청각 지원) 등 다양한 분야에 적..
