| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
- XAI
- 음성합성
- 오블완
- ChatGPT
- 감정 표현
- 우분투
- 티스토리챌린지
- 이미지 편집
- 인공지능
- 이미지 생성
- tts
- 음성 인식
- 확산 모델
- gaussian splatting
- 트랜스포머
- 멀티모달
- OpenAI
- 딥러닝
- 오픈소스
- 바이브코딩
- PYTHON
- LLM
- AI
- 자동화
- 메타
- AI 기술
- 오픈AI
- 강화학습
- 일론 머스크
- 생성형AI
- Today
- Total
목록2026/02/22 (2)
AI 탐구노트
지난 번에 Whisper와 Supertone을 이용한 퀴즈 웹앱을 만들어 봤었습니다. 아무래도 동시 사용자가 많아지면 서버 쪽 부하 때문에 신속한 서비스를 하기에는 무리가 있어 보였습니다. 그래서 이번에는 외부 AI 모델을 사용하지 않고 크롬 브라우저에서 자체 지원되는 Speech Recognition API와 내장 TTS 기능을 이용해서, 스마트폰 한 대로 서로 다른 언어를 사용하는 사람들끼리 대화하는 것을 도와주는 웹앱을 만들어봤습니다. 동시 통역 웹앱1.개요두 사람 간의 단독 대화를 위한 초간단 동시 통역(번역!) 서비스입니다.스마트폰(혹은 랩톱)만 있으면 손쉽게 사용할 수 있게 하는 것이 목표입니다.높은 음성 품질, 많은 기능 등은 절대 추구하지 않습니다. 가성비와 적정기술이 최고라 믿습니다!2..
Ollama에서 Gemma3 모델을 올려두고 API 호출을 통해 서비스를 받았습니다. 이전 글에서 언급한 것처럼 돌아오는 답변이 원하는 포맷이 아니고 요약도 엉망으로 되는 경우가 많았습니다. ollama 쪽 모델은 원본과는 좀 다른가보다... 자기 고집이 센 녀석인가보다 하면 불편하지만 참으며 사용했고, 요약 결과가 너무 이상하다 싶으면 좀 더 큰 다른 모델을 이용하는 방식으로 넘어갔었습니다. 그런데... 아무리 Ollama 쪽 모델의 특성일 수도 있겠다 생각해도 이 모델이 이렇게까지 헤맬까? 하는 의문이 드는겁니다. 그래서, 일종의 버그 잡기를 시도했고, 그 과정을 기록해 둡니다. 흑역사죠. 1) 문제점 확인 예전에 만들어 둔 Youtube 스크립트 요약기에서 로컬 모델 사용 방식을 LM Stud..
