일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 휴머노이드 로봇
- gaussian splatting
- 오블완
- 확산 모델
- 자연어 처리
- 멀티모달
- 오픈AI
- LORA
- 오픈소스
- ai 챗봇
- 메타
- LLM
- 실시간 렌더링
- AI
- 일론 머스크
- OpenAI
- tts
- 인공지능
- 시간적 일관성
- 티스토리챌린지
- 딥러닝
- XAI
- 트랜스포머
- 생성형AI
- AI 기술
- OpenCV
- 강화 학습
- 우분투
- PYTHON
- ChatGPT
- Today
- Total
목록전체 글 (581)
AI 탐구노트

벡터 방식의 지도 데이터를 이용하고 바이브 코딩을 이용해 온라인으로 퍼즐을 하나 만들 생각이었습니다. 구현하려는 것은 세계 지도를 보여주고 특정 국가명을 보여주면서 그 나라를 지도 상에서 클릭해서 맞히는 게임입니다. 사회과부도나 지구본, 전세계 여행 등에 관심이 많은 아이들에게는 좋은 교육 도구가 될 수 있지 않을까 하는 생각이었죠. 그런데... 역시 80억의 사람들 가운데 이런 생각을 하는 사람이 없을리가 없잖겠죠? 제가 구상했던 것보다 훨씬 멋지게, 그것도 웹에서 손쉽게 누구나 접근할 수 있도록 공개해 둔 곳이 있었습니다. 해 보면서 감탄하다가 소개를 해야겠다 싶어 정리해 봅니다. 📌 MapPuzzle 란?MapPuzzle은 세계 지리, 국기, 퍼즐을 기반으로 한 교육용 게임 플랫폼으로, 모든 연..

최근 아파트 에어콘 실외기 근처에서 갑자기 '구~구~'하고 비둘기 소리가 들려왔습니다. 순간 헉... 했습니다. 작년 여름의 기억이 떠올랐기 때문입니다. 지난 해 여름, 비둘기들은 불청객이었지~저희 집은 아파트에 에어콘 실외기가 작은 방 바깥 벽쪽에 설치되어 있습니다. 먼 통근 거리 때문에 낮에 방에서 비둘기들의 구구거림을 들을 일이 없었고 원래 새들이 조용히 지내는터라 전혀 눈치채지 못했습니다. 그러다 어느 주말 낮에 작업을 하고 있는데 바깥에서 비둘기 울음소리가 들리는 겁니다. 뭐지? 하며 방충망을 걷고 봤더니 비둘기 부부가 실외기와 벽 사이에 둥지를 틀고 지내고 있었던 겁니다. 실외기 주변은 온통 녀석들의 깃털과 싸놓은 똥들로 뒤범벅되어 있었죠. 오랫동안 아파트 생활을 했지만, 이런 적은 처..

디지털 문서의 자동 분석은 이제 기업뿐 아니라 교육, 의료, 행정 등 다양한 분야에서 필수 기술로 자리 잡았습니다. 예를 들어, 기업은 수천 장의 문서를 자동으로 분류하고 필요한 정보를 추출해 업무를 자동화하고, 병원은 환자의 진료기록을 분석해 빠르고 정확한 진단을 돕습니다. 이러한 문서 분석의 핵심 기술 중 하나가 바로 '문서 파싱(Document Parsing)'입니다. 하지만 기존의 문서 파싱 기술은 그리 간단하지 않습니다. 문서에는 단순한 텍스트 외에도 표, 수식, 이미지 등 다양한 정보가 복잡하게 얽혀 있기 때문이죠. 이를 처리하기 위해 과거에는 여러 도구를 조합한 파이프라인 방식이나, 거대한 인공지능 모델을 활용한 종단형(end-to-end) 방식이 사용되어 왔습니다. 하지만 이들 방식은 각각..

예전에 사용하다가 용량이 작아서 교체하곤 버리지 않고 갖고 있던 SSD가 있습니다. SATA 방식의 128GB 용량... 요새는 USB 스틱도 이 정도 용량 넘어서는 것들이 많다던데... 어중간한 덩치와 추가 어댑터가 필요하다는 것과 그러면서도 어중간한 용량... 그래서 책상 어딘가에 고이 보관되어 있었습니다. 그러다 작업 때문에 몇 사람이 함께 사용해야 하는 공유디스크를 만들어야했고, 그때 사용한 것이 USB 스틱을 아이피타임 공유기에 연결해서 사용하는 것이었죠. (NAS 같은 걸 살 정도까지는 아니었기에...) 당시에 관련해서 작성했던 글은 다음과 같습니다. ipTime 공유기의 파일 공유 서비스 설정 방법지난 번에 윈도우의 특정 폴더를 공유 설정을 하고 CIFS 타입으로 우분투에서 마운트해..

🧠 수도쿠(Sudoku)란?수도쿠(Sudoku)는 숫자를 사용한 논리 퍼즐 게임입니다. 9x9 격자 안에 1부터 9까지의 숫자를 채워 넣는 게임으로, 각 행(Row), 열(Column), 그리고 3x3의 작은 격자(Box)마다 중복 없이 숫자를 배치해야 합니다. 단순한 규칙이지만 깊은 사고를 요구하기 때문에 국적을 가리지 않고 전세계적으로 사랑받고 있습니다. 📜 역사와 기원수도쿠의 기원은 18세기 스위스 수학자 레온하르트 오일러(Leonhard Euler)의 '라틴방진(Latin Square)' 개념에 뿌리를 두고 있으며 19세기 프랑스 신문들 ('Le Siècle', 라 프랑스)에서 비슷한 퍼즐을 게시했던 것이 시초라고 합니다. 세월이 훅~하고 지나 1979년 미국 퍼즐 잡지 '델 매거진(DEL ..

AI 관련 논문 파일들 가운데 30~40MB를 훅 뛰어넘는 것들이 다수 있습니다. 용량이 크기도 하고, ChatGPT 등에 요약 요청을 할 때 용량이 크다고 문제가 발생할 수도 있어서 내용 상 누락은 없지만 파일 사이즈 자체는 줄일 수 있을 것 같아 그 방식을 찾아봤고 결과를 정리해 둡니다. PDF 파일 크기 줄이기PDF 파일의 크기를 줄이거나 압축하는 대표적인 방법은 이미지 리샘플링(해상도 낮추기), 불필요한 메타데이터 제거, 폰트 서브셋화(필요한 글자만 포함), 중복 객체 정리 등이 있습니다. 하지만 텍스트, 이미지, 표 등 원본 내용이 빠지지 않게 하려면, '이미지 품질 저하'와 '페이지 삭제' 등은 피하고, 최대한 안전한 최적화만 적용해야 합니다. 가장 많이 쓰이는 방식은 온라인 서비스로 PDF ..

3D 그래픽스 기술은 현실 세계를 가상 공간에 재현하는 데 중요한 역할을 하고 있습니다. 최근에는 인공지능 기술을 활용한 NeRF(Neural Radiance Fields)나 Gaussian Splatting 같은 방식이 각광받고 있습니다. 이러한 기술은 사진 몇 장만으로 정교한 3D 장면을 복원할 수 있지만, 학습에 시간이 오래 걸리고 실시간 렌더링에 어려움이 있다는 단점도 있습니다.흥미로운 점은, 과거부터 지금까지 게임 엔진이나 실시간 그래픽스에서는 삼각형(triangle)이라는 단순한 도형이 핵심 요소로 사용되고 있다는 것입니다. 그래픽카드(GPU)는 삼각형 처리에 최적화되어 있어 매우 빠르게 이미지를 렌더링할 수 있습니다. 그러나 기존의 인공지능 기반 기술에서는 삼각형을 직접 활용하기가 어려웠고,..

Chatterbox란?Chatterbox는 Resemble AI에서 개발한 오픈소스 텍스트-음성 변환(Text-to-Speech, TTS) 모델로, 고품질 음성 합성과 음성 클로닝 기능을 제공합니다. MIT 라이선스로 배포되어 누구나 자유롭게 사용할 수 있으며, 특히 감정 표현 조절과 실시간 음성 합성 기능이 특징입니다. Chatterbox의 주요 특징제로샷 음성 클로닝 : 단 몇 초의 참조 음성만으로 새로운 음성을 클로닝할 수 있습니다. 추가 학습 없이도 다양한 음성을 생성할 수 있습니다. 감정 수준 조절 : exaggeration 파라미터를 통해 음성의 감정 표현 강도를 조절할 수 있어, 단조로운 음성부터 극적인 표현까지 다양하게 생성할 수 있습니다.실시간 음성 합성 : 200ms 이하의 지연 시간..

글로벌 사회로의 진입이 가속화되면서, 다양한 언어 간의 원활한 소통은 개인과 기업 모두에게 필수적인 요소가 되었습니다. 이러한 흐름 속에서 다국어 번역 기술은 단순한 언어 변환을 넘어, 문화적 뉘앙스와 문맥을 고려한 정교한 커뮤니케이션 도구로 발전하고 있습니다. 초기의 다국어 번역 기술은 주로 군사적 목적에서 출발하여, 제한된 언어 쌍을 대상으로 한 기계 번역 시스템이 중심이었습니다. 그러나 오늘날에는 인공지능(AI), 자연어 처리(NLP), 음성 인식, 클라우드 컴퓨팅 등의 기술이 접목되면서, 실시간 음성 통역, 문서 자동 번역, 다국어 챗봇 등 다양한 형태로 확장되고 있습니다. 특히, 스마트폰과 클라우드 기반의 서비스는 사용자에게 언제 어디서나 다국어 번역 기능을 제공함으로써, 언어 장벽을 허무는 데..

유튜브에는 전문가들이 쏟아내는 수많은 지식과 정보가 넘쳐납니다. 하지만 영상 길이는 대부분 20분, 길게는 1시간을 훌쩍 넘기기도 하죠. '내용은 궁금한데, 전부 다 볼 시간은 없다'는 고민, 누구나 한 번쯤 해보셨을 겁니다.그럴 때 바로 '스크립트'와 'AI 요약'의 조합이 강력한 해결책이 됩니다. 유튜브가 제공하는 '자동 자막(스크립트)'을 텍스트로 추출하면, 전체 영상을 재생하지 않고도 내용을 빠르게 훑어보고, 필요한 부분만 골라볼 수 있습니다. 여기에 AI 요약 기능까지 활용하면, 전문가 영상도 몇 분 만에 핵심만 쏙쏙 정리할 수 있게 되죠.이번 글에서는 유튜브 스크립트를 활용해 짧은 시간에 많은 정보를 효율적으로 처리하는 방법, 그리고 실제로 AI와 함께 어떤 방식으로 요약과 정리를 할 수 있는..