일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- ai 챗봇
- 생성형AI
- 강화 학습
- AI
- PYTHON
- 인공지능
- 오픈AI
- 트랜스포머
- 일론 머스크
- OpenAI
- 메타
- 실시간 렌더링
- 휴머노이드 로봇
- OpenCV
- LLM
- ChatGPT
- 우분투
- 멀티모달
- 오픈소스
- 확산 모델
- AI 기술
- 자연어 처리
- 오블완
- 다국어 지원
- 티스토리챌린지
- XAI
- tts
- LORA
- 딥러닝
- 시간적 일관성
- Today
- Total
목록DIY 테스트 (74)
AI 탐구노트

전화통화 내용이나 회의 중 녹음한 내용을 다시 텍스트로 전환하는 것을 해 보겠습니다. 복수의 사람들이 말하는 것을 각각 구분할 수 있어야 하므로 '화자 분리'라는 기술이 사용됩니다. 대략적으로 구현하려는 기능은 다음과 같습니다. 1️⃣ 목표 기능 1.입력오디오 파일 (mp3 또는 wav 파일)2.처리 과정화자 분리 (diarization) : 허깅페이스에 공개된 pyannote/speaker-diarization-3.1 를 이용음성 텍스트 변환 (STT) : WhisperX 이용3.추후 확장 (언제가 될까? -_-;)화자 별 오디오 시각화채팅창 형식의 Gradio 앱에 내용 표시다국어 지원 (언어 자동 감지)자동 번역 (EasyNMT, m2m100, opus-mt 또는 경량 LLM 이용) 2️⃣ ..

지난 글에서는 자신만의 손글씨 폰트 만들기에 대해 알아 봤습니다. 이제 실제로 만들어 보는 단계가 남았죠. 사실 GAN을 이용해 진행하는 모델들이 일부 있었는데, 제가 기본기가 허술하다보니 어디서 어떻게 접근해야 하는지를 몰라서 시도를 못하고 있던 터였습니다. 이제 AI의 도움을 받아가며 하나씩 진행해 보렵니다. 1. 구현하려는 내용 개요 및 요구사항이번에 하려는 작업은 다음과 같습니다. 목표 : 사용자 맞춤형 손글씨 폰트 자동 생성언어 : 한글, 영어요구 품질 : 적은 수의 샘플로 높은 품질의 폰트 생성기술 : 최신 AI 기술 활용 2. 적용 기술 선정폰트 제작에 활용할 수 있는 다양한 AI 모델이 있습니다. 대표적인 모델로는 다음과 같은 것들이 있습니다.GAN(Generative Adversaria..

1. 프로젝트 개요목표 : 카메라로 촬영된 강물 영상에서 표면 유속을 계산도구 : Vision AI (예: OpenCV, TensorFlow, YOLO 등)와 실시간 영상 처리방법 : 강물 표면의 움직이는 물체(예: 부유물, 파문 등)를 추적하여 속도를 측정적용 기법 : 광학흐름 (Optical Flow) 방식, 부유물 객체 감지 방식 두 방식을 개별 혹은 동시 적용 (보정) 2. 혼용 방식의 기본 개념YOLOv11 기반 부유물 추적부유물(나뭇잎, 잔해물 등)을 객체로 감지하고, 프레임 간 이동 거리를 계산하여 속도를 측정장점: 명확한 객체를 기반으로 속도를 계산하므로 직관적이고 정확도가 높음단점: 부유물이 없는 경우 적용 불가Optical Flow 기반 유속 측정전체 픽셀의 움직임을 분석하여 평균 유속..

벚꽃이 지고 대신 본격적인 녹음이 몰려오는 시기가 되었습니다. 반팔 옷을 입고 밖을 나서도 그닥 이상하게 보이지 않을 정도로 날씨도 따뜻해졌구요. 덕분에 강가나 공원을 거니는 사람들도 많이 늘었습니다. 각자 다들 어떤 생각을 하며, 어떤 것에 관심을 두고 살고 있을까 하며 궁금해 하다가 문든 이런 생각이 떠올랐습니다. "요즘 사람들은 어떤 뉴스에 주목하고 있을까?""언론은 어떤 주제, 어떤 소재로 우리의 관심을 끌려고 하고 있을까?" 국내에서는 대선 레이스가 막 시작되었죠. 각 언론사의 국내 기사들이 관련 기사들을 많이 싣고 있는 것 같습니다. 해외 뉴스는 미국 트럼프 대통령의 예상치 못한 행보들 때문에 하루가 멀다하고 정 반대되는 전망과 의견들이 쏟아지기도 하죠. 시간만 많다면 하나씩 들여다보며 기자..

며칠 전 쌀쌀한 기온과 함께 찾아왔던 비 때문에 벚꽃은 거의 다 떨어진 것 같습니다. 나름 '벚꽃맛길'을 가진 동네다 했는데 화무십일홍이던가요... 너무 금방 져서 안타까웠습니다. 최근에 퀴즈를 몇 개 만들고 있는데 공개된 지식 기반의 퀴즈 말고 새로운 것을 구상하다보니, 많이 접하는 것이 틀린 그림 찾기나 방탈출 게임과 같은 것들이 있더군요. 그래서, 그 가운데 ChatGPT의 도움을 받으면 만들 수 있을만한 것으로 틀린 그림 찾기와 미로를 선정했고 각각의 결과물을 소개해 보려고 합니다. 이번 글에서는 틀린 그림 찾기~! 🧩 기능을 채우다 – Edit 모드와 Game 모드 기능적으로는 두 가지 모드를 두었습니다. 하나는 유저가 실제로 게임을 플레이하는 Game 모드, 다른 하나는 정답 영역을 설정하..

ChatGPT나 Claude를 사용하면서 가끔 다음과 같은 생각을 할 때가 있습니다. (다른 분들도 아마 한번쯤은 해 보지 않으셨을까 생각합니다만...)매달 내는 구독 비용이 아깝다. - 최근에는 ChatGPT 구독을 여럿이 나눠서 사용하는 사람들도 늘고 있다고 합니다내 정보가 외부로 공개되는 것이 싫다온라인 서비스인데 어떤 때는 응답이 너무 느리다내가 만든 앱에서 AI 기능을 활용하고 싶은데 API 로 사용하는 것은 챗봇 구독과 별도로 비용이 들더라이럴 때 로컬에서 대형 언어 모델(LLM)을 사용할 수 있다면 하는 쪽으로 생각이 진행되죠. 실제로 그렇게 하고 계신 분들도 많구요. 로컬에서 사용할 수 있는 오픈소스 모델들이 상용 LLM보다 공개 LLM 모델의 성능이 더 낫다고는 할 수는 없습니다. 하지..

🍃 봄바람 따라, 코딩도 vibe 타는 시대 요즘 날씨가 너무 좋죠. 나무엔 새잎이 가득하고, 벚꽃은 이제 지고 있지만 그 자리를 연두빛 초록이 채워갑니다. 이렇게 자연도 계절의 vibe을 타듯, 코딩에도 새로운 흐름이 찾아왔습니다. 이름하여 Vibe Coding. 개발자가 코드를 일일이 짜기보다, '내가 원하는 걸 말하면' AI가 알아서 멋지게 구현해주는, 말 그대로 'vibe'로 개발하는 시대가 열린 거죠.🧠 DeepSite가 불러온 새로운 흐름 이 분위기의 중심에는 단연 DeepSite가 있습니다. 단순히 LLM을 불러다 코딩에 쓰는 게 아니라, 목적 중심으로 동작하는 일종의 에이전트 기반 개발 플랫폼이죠. '이런 기능이 필요해요', '이런 게임을 만들고 싶어요' 혹은 게임의 이름이나 방식 정도..

지난 번에 바이브 코딩을 통해 청기백기 게임을 만들어 보려고 했었죠. 하지만 DeepSite에서 사용한 DeepSeek가 아마도 청기백기 게임은 경험이 없었는지 상세하게 설명을 달아주지 않으면 생성을 못하는 것 같았습니다. 다른 것들은 정말 아주 짧은 한마디만으로도 멋드러지게 만들어줬는데 말이죠. 그래서, 청기백기 게임을 간단하게 만들어 보기로 했습니다. 먼저 청기백기 게임의 로직을 한번 만들어 봤습니다. 처음에는 깃발 구분, 액션 구분, 둘 간의 연결 등 개별적으로 따로 구조를 만들고 이를 조합하는 방식으로 구현하려고 했었는데 판정하는 것도 번거롭고 굳이 그럴 필요까지는 없을 것 같았습니다. 그래서, 나올 수 있는 지시어를 전부 명시하는 방식으로 접근했습니다. 청기백기 게임의 기본 로직 구현나올 수..

지난 번에 아래 글을 작성하면서 조사를 한 터라 바이브 코딩이 어떤 것인지는 대충 알게 됐습니다. 바이브코딩(Vibe Coding) : AI가 바꾸는 개발의 미래와 인간 개발자의 역할최근 실리콘밸리에서 '바이브코딩(Vibe Coding)'이라는 용어가 화제입니다. 이는 생성 인공지능(AI)을 활용한 코딩을 의미하며, 스타트업부터 빅테크까지 산업 전반에 걸쳐 혁신을 예고하고 있습니42morrow.tistory.com 그래도, 아는 것보다 체험해 보는 것이 중요하다 싶더군요. 예전에도 ChatGPT를 이용해서 다양한 게임을 만들어 봤던터라 크게 다르지 않겠지, 작성된 코드를 제대로 동작하도록 만들기 위해서는 그래도 숨은 시행착오가 많이 생길 수 밖에 없겠지 하는 약간은 낮은 기대 수준을 가지고 시작했죠. ..

3D 프린터를 활용하면 자신만의 굿즈를 직접 제작할 수 있습니다. 하지만 일반적인 3D 모델링 소프트웨어를 사용하려면 전문적인 지식이 필요하고, 처음 시작하는 사람들에게는 진입 장벽이 높습니다. 그렇다면 이미지 한 장만으로 3D 모델을 만들 수 있다면 어떨까요? 최근 MIDI (Multi-Instance Diffusion for Single Image to 3D Scene Generation)라는 강력한 AI 모델이 공개되었습니다. MIDI는 단일 이미지를 입력으로 받아 3D 장면을 자동으로 생성할 수 있으며, 특히 여러 개의 객체가 포함된 복잡한 장면도 자연스럽게 복원할 수 있습니다. 이 기술과 관련된 내용은 이전 글에서 소개된 바 있습니다. 2025.03.12 - [AI 기술] - MIDI: 단일 ..