일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 생성형AI
- PYTHON
- 실시간 렌더링
- 딥러닝
- LLM
- 인공지능
- 멀티모달
- 일론 머스크
- ai 챗봇
- 트랜스포머
- tts
- ChatGPT
- LORA
- 메타
- 우분투
- AI 기술
- XAI
- OpenCV
- 오블완
- 오픈소스
- 자연어 처리
- AI
- 강화 학습
- OpenAI
- 확산 모델
- 시간적 일관성
- 휴머노이드 로봇
- 다국어 지원
- 티스토리챌린지
- 오픈AI
- Today
- Total
목록인공지능 (28)
AI 탐구노트

한 때 자신만의 손글씨 폰트를 제작하는 열풍이 분 적이 있었습니다. 국내에서는 네이버와 보이저엑스에서 사람들의 신청을 받아서 손글씨를 AI 기술을 이용해 개인 폰트를 만들어주기도 했습니다. 보이저엑스의 경우, 현재는 중단했지만 '온글잎'이라는 이름으로 상용으로 제작 서비스를 제공하고도 했구요. 당시 이런 서비스들을 보면서 저도 '우와, 저런 건 나도 해 보고 싶다' 하는 생각을 가졌었더랬습니다. 하지만, 해 볼 수 있는 장비도 없고 능력치 밖이다 싶어서 관심만 가지고 있었죠. 그러다 몇 년이 지났습니다. 이것저것 평소에 만들어 보고 싶던 것들을 하나씩 해 보면서 정리하다보니 그때 해 봐야지 하며 기록해 둔 목록이 있어 다시 꺼내 봅니다. ^^ 1. 자신만의 폰트 제작1.1.폰트의 중요성폰트는 우리가 ..

VLM (Vision Language Model)이란?VLM은 Vision Language Model의 약자로, 이미지와 텍스트를 동시에 이해하고 처리할 수 있는 인공지능(AI) 모델입니다. 쉽게 말해, 사진을 보고 그 내용을 설명하거나, 텍스트를 바탕으로 이미지를 이해하고 질문에 답할 수 있는 기술이죠. 인간이 눈으로 보고 머리로 이해하는 것처럼, VLM은 시각 정보(이미지)와 언어 정보(텍스트)를 함께 학습해 다재다능하게 작동합니다. VLM 의 주요 특징은? 1️⃣ 이미지와 텍스트를 통합적으로 이해텍스트만 처리하는 언어 모델(예: GPT)과 달리, VLM은 이미지 속 객체, 장면, 행동 등을 분석할 수 있습니다.예) 사진 속 고양이를 보고 "이 동물은 무엇인가요?"라는 질문에 "고양이입니다"라고 답..

OpenAI에서 GPT 4.1 버전을 공개했습니다. 흠... 이제 또 새로운 서비스, 기술 소개 시즌이 온 건가요? 한번에 몰아치는 OpenAI의 특성 상 이번 한 주는 또 많은 분석글들이 쏟아지겠네요. 저도 간단하게 요약 정리해두고 가렵니다. GPT-4.1 개요GPT-4.1은 GPT-4 Turbo의 차세대 버전GPT-4.1, mini, nano 의 3개 모델을 공개GPT-4.1 mini, nano는 경량화 모델이지만 높은 성능을 제공하며, 저지연 및 저비용 운영이 가능함코딩 능력, 지시 이해 능력, 장문 맥락 처리 성능이 크게 향상됨100만 토큰까지의 문맥 길이 지원 (기존 GPT-4o는 128,000개 지원) -> 오호... 실 업무에서 활용하기에 좋아졌네요. GPT-4.1의 주요 개선 사항 정확도..

현대의 자율주행 기술은 놀라운 속도로 발전하고 있지만, 여전히 넘어야 할 큰 장벽이 존재합니다. 그 중에서도 가장 중요한 문제 중 하나는 현실적인 운전 시나리오의 시뮬레이션입니다. 현실 세계에서 데이터를 수집하는 것은 시간과 비용이 많이 들 뿐만 아니라, 드물고 위험한 상황을 반복적으로 수집하는 것은 사실상 불가능합니다. 이러한 한계를 극복하기 위해 최근 인공지능 분야에서는 생성형 모델, 특히 비디오 생성 모델을 활용한 가상 세계 시뮬레이션이 주목받고 있습니다. 하지만 일반적인 생성형 비디오 모델은 자율주행의 고유한 요구사항 (예를 들어 다중 에이전트 간의 상호작용, 시간적·공간적 일관성, 그리고 여러 카메라 뷰의 조화 등)을 만족시키기 어렵습니다. 이러한 현실적인 문제를 해결하기 위해 제안된 모델이 바..

지난 번에 아래 글을 작성하면서 조사를 한 터라 바이브 코딩이 어떤 것인지는 대충 알게 됐습니다. 바이브코딩(Vibe Coding) : AI가 바꾸는 개발의 미래와 인간 개발자의 역할최근 실리콘밸리에서 '바이브코딩(Vibe Coding)'이라는 용어가 화제입니다. 이는 생성 인공지능(AI)을 활용한 코딩을 의미하며, 스타트업부터 빅테크까지 산업 전반에 걸쳐 혁신을 예고하고 있습니42morrow.tistory.com 그래도, 아는 것보다 체험해 보는 것이 중요하다 싶더군요. 예전에도 ChatGPT를 이용해서 다양한 게임을 만들어 봤던터라 크게 다르지 않겠지, 작성된 코드를 제대로 동작하도록 만들기 위해서는 그래도 숨은 시행착오가 많이 생길 수 밖에 없겠지 하는 약간은 낮은 기대 수준을 가지고 시작했죠. ..

최근 인공지능 음성 합성 기술이 급속히 발전하면서 자연스러운 음성을 구현하는 다양한 서비스가 등장하고 있습니다. 그 가운데 Zonos TTS는 적은 GPU 메모리를 사용하면서도 한국어도 곧잘 음성 생성을 해 내는 반가운 모델이라고 알려져 있습니다. ZONOS : 다국어, 감정표현도 잘 되는 오픈소스 TTS 모델최근 인공지능 기술의 발전으로 텍스트를 자연스러운 음성으로 변환하는 TTS(Text-to-Speech) 기술이 주목받고 있습니다. 특히, 개인화된 음성 생성과 감정 표현이 가능한 모델에 대한 수요가 증가하42morrow.tistory.com 이 모델은 주어진 텍스트를 음성으로 만드는 것에 그치지 않고 사용자 본인의 음성을 복제하는 기능도 제공합니다. 온라인 사이트에서 음성 생성 서비스를 제공하..

인공지능(AI)이 급속도로 발전하면서 우리 사회에 미치는 영향이 점점 커지고 있습니다. 이제는 단순히 자동화를 넘어, 인간이 수행하던 창의적이고 복잡한 작업까지도 AI가 대체할 수 있는 시대가 오고 있는거죠. 이런 변화는 인간의 일자리를 위협하는 동시에, 새로운 기회를 창출하기도 합니다. 최근 Anthropic의 CEO 다리오 아모데이(Dario Amodei)의 인터뷰를 통해 AI의 발전이 가져올 변화에 대한 흥미로운 시각을 엿볼 수 있었습니다. 그는 AI가 단순한 자동화 도구를 넘어, 인간의 사고와 비슷한 방식으로 문제를 해결하는 단계로 접어들고 있다고 강조했죠. 그렇다면, 우리는 이 변화에 어떻게 대비해야 할까요? 그리고 AI 시대에 인간의 역할은 무엇이 될까요? 다음은 인터뷰에서 나온 내용을 정..

이번 글에서는 AI 에이전트 기술의 등장과 그로 인한 시장의 변화, 그리고 AI 에이전트 마켓플레이스의 등장이 가져올 미래에 대해 이야기해보려 합니다. 최근 AI 기술의 발전은 우리의 일상과 산업 전반에 큰 영향을 미치고 있는데요, 특히 AI 에이전트의 등장은 그 변화의 중심에 있습니다. AI 에이전트 기술의 등장AI 에이전트란?간단히 말해, AI 에이전트는 특정 작업이나 서비스를 자동으로 수행하는 인공지능 프로그램을 의미합니다. 이러한 에이전트는 사용자의 명령을 이해하고, 학습하며, 자율적으로 행동할 수 있는 능력을 갖추고 있습니다. 예를 들어, 고객 문의에 자동으로 응답하는 챗봇이나, 일정 관리를 도와주는 가상 비서 등이 AI 에이전트의 대표적인 사례입니다. 최근 AI 기술의 발전으로 인해 이러한 에..

AI 기술이 발전하는 속도가 정말 빠릅니다. 불과 2년 전까지만 해도 챗GPT 같은 생성형 AI가 화제였는데, 이제는 그다음 단계로 넘어가고 있죠. 바로 거대세계모델(Large World Model, LWM) 시대가 열리고 있습니다. 기존의 LLM(거대언어모델)이 언어를 중심으로 AI를 발전시켰다면, LWM은 현실 세계를 직접 이해하고 시뮬레이션하는 방향으로 진화하고 있습니다. 이 변화는 단순한 기술 발전이 아니라 AI가 실제 환경에서 인간과 상호작용하는 방식 자체를 바꾸는 혁신적인 전환점이 될 것입니다. 오늘은 LLM과 LWM의 차이점, 그리고 LWM이 메타버스뿐만 아니라 휴머노이드 로봇 기술에도 어떻게 영향을 미치는지 살펴보겠습니다.LLM vs. LWM, 무엇이 다를까?1) LLM: 언어를 이해하는 ..

Alibaba 그룹의 Tongyi Lab에서 Wan 2.1이라는 텍스트와 이미지 등의 입력을 기반으로 비디오를 생성할 수 있는 고급 영상 생성 모델을 오픈소스로 공개했습니다. 이번 글에서는 이 모델에 대해 간략하게 알아보도록 하겠습니다. Wan 2.1Wan2.1은 다양한 영상 생성 작업을 지원하는 오픈소스 비디오 생성 모델들의 모음입니다.Text-to-Video, Image-to-Video, Video 편집, Text-to-Image, Video-to-Audio 등 여러 작업을 하나의 모델 패밀리로 수행할 수 있습니다.중국어, 영어 텍스트를 영상 속에 직접 생성해낼 수 있어 실용성이 높습니다.Wan-VAE라는 뛰어난 영상 전용 VAE(Variational Autoencoder)를 사용하여, 1080P 해..