| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
- 멀티모달
- 이미지 생성
- 트랜스포머
- PYTHON
- 우분투
- LLM
- 확산 모델
- tts
- 강화학습
- 메타
- gaussian splatting
- 음성합성
- 생성형AI
- OpenAI
- ChatGPT
- AI 기술
- XAI
- 인공지능
- 오블완
- 자동화
- 감정 표현
- AI
- 이미지 편집
- 일론 머스크
- 티스토리챌린지
- 오픈AI
- 바이브코딩
- 음성 인식
- 딥러닝
- 오픈소스
- Today
- Total
목록2026/02 (25)
AI 탐구노트
티스토리 블로그를 시작한 지 1년이 훌쩍 넘어갑니다. 아주 예전에 티스토리의 오픈소스 단독 블로그였던 텍스트 큐브를 썼던 관계로 네이버 쪽이 아니라 티스토리 쪽으로 넘어 왔었습니다. 그런데 요 며칠 그렇게 했던 것이 잘못된 선택이었나 하는 생각을 하게 됐습니다. 어떤 일이 있었는지 짧게 글로 남겨 봅니다. 1️⃣ 문제의 발단... 파일이 날아가고 정책이 바뀌었다 오늘 티스토리로부터 동영상 업로드 지원을 하지 않을 것이고 기존 파일은 삭제하겠다는 알림을 받았습니다. 사실 그렇잖아도 업로드 했던 영상, 음성 파일이 사라지거나 하는 경우가 생겨서 의아해 하던 참이었습니다. 이미 업로드해서 블로그 글에 멀쩡히 걸려 있던 파일들이 삭제가 됐으니 말입니다. 제 경우, 사라진 파일은 AI로 생성한 음성, 오디오 ..
라이브 스트리밍에서는 아바타가 사람처럼 자연스럽게 말하고 표정 짓는지가 점점 더 중요해지고 있습니다. 그런데 시청자가 민감하게 느끼는 건 해상도만이 아니라, 영상이 끊기지 않고 늦지 않게 따라오는지, 즉 지연과 프레임 안정성입니다. 문제는 고품질을 잘 내는 확산 모델이 보통 여러 번의 디노이징을 거치며 느리다는 점입니다. 또 긴 영상을 청크로 나눠 만들면 청크 경계가 어색해지거나, 겹치는 프레임 때문에 중복 계산이 늘어 더 느려질 수 있습니다. PersonaLive는 이런 병목을 줄여 라이브에 바로 넣을 수 있는 초상 애니메이션을 생성하는 것을 목표로 합니다. PersonaLive 1. 기존 방식의 문제점기존 확산 기반 방식은 보통 20스텝 이상 디노이징을 수행하고, 조건을 더 강하게 따르게 하는 CFG..
Ollama를 처음 설치할 때 기본 권장 방식대로 ollama 사용자 계정과 ollama 그룹을 사용해 설정했습니다. 익숙치 않을 때는 기본 설치를 따르는 관행처럼 행동했던거죠. 그리고 그게 일반적인 사용법이기도 했구요. 그렇게 설치된 ollama는 시스템 서비스로도 깔끔하게 동작하고, 겉보기에는 큰 문제가 없어 보였습니다. 하지만 실제로 사용해 보니 몇 가지 불편한 점이 드러났습니다.우선 모델을 다운로드하면, 제가 주로 작업하는 로컬 사용자 계정의 홈 디렉터리가 아니라 별도의 위치에 저장되었습니다. 또한 시스템 서비스로 실행되는 ollama 사용자와 현재 로그인한 사용자 계정이 서로 다르다 보니, CLI로 모델을 실행하거나 설정 파일을 다룰 때 권한 문제가 반복적으로 발생했습니다. (서비스로 돌릴 때는..
바이브코딩으로 온라인 역사 연표를 만들어 봤습니다. 이것도 아이들이 한국사 공부할 때 필요한 자료를 생성해 주기 위한 목적에서 시작된 것인데, 만들어 놓고 보니 한국사, 세계사 용으로만 국한할 필요는 없어 보였습니다. 어떤 때는 과학사가 되기도 하고 어떤 때는 종교의 변화상이나 기술의 변화상, 미술사 등등 적용할 수 있는 영역은 많을 것 같긴 합니다. 개인적으로는 기회가 되면 연로하신 많은 어르신 분들의 개인 인생사를 연표 형태로 정리해보고 싶습니다. 개인 별 살아온 인생을 전기문으로 쓸 수 있으면 좋겠지만 그게 쉬운 일은 아니니 요약본 연표 형태로라도 정리할 수 있으면 어떨까 싶은거죠. 사진이나 영상도 함께 가미할 수 있다면 더 좋겠죠. 누군가에겐 큰 의미가 있을테니까요. 온라인 역사 연표1.개요 한국..
지난 번에 Whisper와 Supertone을 이용한 퀴즈 웹앱을 만들어 봤었습니다. 아무래도 동시 사용자가 많아지면 서버 쪽 부하 때문에 신속한 서비스를 하기에는 무리가 있어 보였습니다. 그래서 이번에는 외부 AI 모델을 사용하지 않고 크롬 브라우저에서 자체 지원되는 Speech Recognition API와 내장 TTS 기능을 이용해서, 스마트폰 한 대로 서로 다른 언어를 사용하는 사람들끼리 대화하는 것을 도와주는 웹앱을 만들어봤습니다. 동시 통역 웹앱1.개요두 사람 간의 단독 대화를 위한 초간단 동시 통역(번역!) 서비스입니다.스마트폰(혹은 랩톱)만 있으면 손쉽게 사용할 수 있게 하는 것이 목표입니다.높은 음성 품질, 많은 기능 등은 절대 추구하지 않습니다. 가성비와 적정기술이 최고라 믿습니다!2..
Ollama에서 Gemma3 모델을 올려두고 API 호출을 통해 서비스를 받았습니다. 이전 글에서 언급한 것처럼 돌아오는 답변이 원하는 포맷이 아니고 요약도 엉망으로 되는 경우가 많았습니다. ollama 쪽 모델은 원본과는 좀 다른가보다... 자기 고집이 센 녀석인가보다 하면 불편하지만 참으며 사용했고, 요약 결과가 너무 이상하다 싶으면 좀 더 큰 다른 모델을 이용하는 방식으로 넘어갔었습니다. 그런데... 아무리 Ollama 쪽 모델의 특성일 수도 있겠다 생각해도 이 모델이 이렇게까지 헤맬까? 하는 의문이 드는겁니다. 그래서, 일종의 버그 잡기를 시도했고, 그 과정을 기록해 둡니다. 흑역사죠. 1) 문제점 확인 예전에 만들어 둔 Youtube 스크립트 요약기에서 로컬 모델 사용 방식을 LM Stud..
최근 인공지능 기술은 이미지 속 정보를 단순히 인식하는 수준을 넘어, 공간 구조를 이해하는 방향으로 빠르게 발전하고 있습니다. 그중에서도 단일 이미지로부터 거리 정보를 예측하는 '깊이 추정' 기술은 자율주행, 로봇, AR·VR과 같은 산업 전반에서 중요한 역할을 맡고 있죠. 하지만 기존 방식은 대부분 픽셀 격자 단위로 깊이를 예측하기 때문에, 해상도가 높아질수록 세밀한 구조를 표현하는 데 한계를 드러냈습니다. 이런 한계는 최근 고해상도 콘텐츠와 실감형 서비스가 늘어나는 흐름 속에서 더욱 분명해지고 있습니다. 예를 들어 4K, 8K 영상 환경에서는 작은 구조물이나 얇은 경계선까지 정확히 표현해야 하지만, 기존 깊이 추정 모델은 업샘플링 과정에서 정보가 뭉개지거나 왜곡되는 문제가 잦았습니다. 이는 인공지능 ..
이번 설 전에 중국 AI 업계에서 새로운 기술과 모델을 많이 소개했습니다. 하나하나가 현재의 산업계에 큰 영향을 미칠 것들이라 하나씩 소개글을 쓰고 있는데 이번에는 틱톡으로 유명한 바이트댄스에서 공개한 시댄스2.0(SeeDance)와 이것이 의미하는 향후의 변화상을 상상하며 정리해 봤습니다. 1.SeeDance 2.0 개요SeeDance 2.0은 '텍스트만 넣으면 영상이 나온다'에서 한 단계 더 나아가, 이미지·영상·오디오까지 레퍼런스로 섞어 한 편의 장면을 만들어내는 생성형 영상 모델입니다. 예전의 영상 AI를 즉흥적인 연주자로 비유한다면, SeeDance 2.0은 레퍼런스 자료를 잔뜩 받아서 이를 기반으로 연출하는 감독에 가깝다고 할 수 있습니다. 즉, 캐릭터들의 이미지, 카메라 무브가 담긴 영..
개인적으로는 도메인을 보유하고 있습니다. 벌써 십수년이 훌쩍 넘었네요. 그 사이 도메인 주소를 가끔씩 사용하기도 했지만, 2/3 넘는 기간 동안 제대로 활용은 못하고 유지비만 계속 낸 것 같습니다. 2000년도인가 막 닷컴 열풍이 불었을 땐, 너나 할 것 없이 자기만의 도메인 주소 하나 가지는게 유행이었죠. 사실 저도 그때 구입한 도메인 주소를 지금껏 가지고 있는 겁니다. 3개였다가 1개는 없애고 1개는 연장 비용을 까먹고 안 내는 바람에 아쉽게도 빼앗긴 아픈 기억이 새록새록하네요. 😭 이번 글에서는 무료 SSL 인증서를 받는 방법을 설명 드리도록 하겠습니다. 단, 개인이 가지고 있는 도메인을 이용해서 발급하는 방법입니다. 도메인 기반 SSL 인증서 발급받기 1.Let's Encrypt란?Let's ..
보스턴다이나믹스의 아틀라스 사례 얼마 전 보스턴다이나믹스의 아틀라스의 덤블링 영상이 공개된 바 있습니다. CES 현장에서는 공중회전 시 약간 불안정했었는데, 그것 때문인지 제대로 하면 이렇게 나온다라는 반박처럼 완벽한 착지까지 보여줬습니다. 물론 공장에 배치되면 할 수 있는 다양한 작업의 예시도 보여줬었죠. 당시 이 때문에 보스턴다이나믹스를 인수했던 현대차의 주가가 폭등하기도 했습니다. 단순히 자동차 회사가 아닌 로봇 회사가 된다는 판단 때문이었습니다. (현대가 인수했다는 이유만으로 한국인들의 사랑을 받고 있다는 점이 재미납니다) 동작 구현 분야 1위는 역시 중국!하지만, 제 생각엔 휴머노이드의 동작 분야 1위는 단연 중국 기업인 것 같습니다. 제가 좋아하는 일론의 테슬라 옵티머스나 피규어 AI의 O3 ..
