일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 티스토리챌린지
- 자연어 처리
- 강화 학습
- 시간적 일관성
- 오픈소스
- 실시간 렌더링
- 딥러닝
- LLM
- AI
- gaussian splatting
- 오블완
- 멀티모달
- 오픈AI
- 우분투
- 인공지능
- 메타
- AI 기술
- OpenAI
- OpenCV
- ChatGPT
- 일론 머스크
- 생성형AI
- 확산 모델
- ai 챗봇
- PYTHON
- LORA
- 트랜스포머
- 휴머노이드 로봇
- tts
- 강화학습
- Today
- Total
목록전체 글 (585)
AI 탐구노트

❓️Super Sensing은 어떤 기술인가요? 메타(Meta)가 개발 중인 새로운 스마트 안경 기능, '슈퍼 센싱(super sensing)', 들어보셨나요? 말 그대로 '모든 것을 기억하는 초감각'을 가진 스마트 안경입니다. 이 기술은 하루 종일 카메라와 센서를 켜두고, 사용자가 겪은 일들을 AI가 기억하는 기능을 포함합니다. 📹️ 지금도 유튜버들이 고프로나 Cam365 등을 이용해 하고 있지 않나요? 맞습니다. 지금도 일상을 그대로 촬영하고 이를 편집해서 유튜브 영상으로 올리시는 분들이 많이 있죠. 그런 것과 크게 다르지 않습니다. 일부만 빼면 말이죠. 카메라와 센서가 있다면 실제로 영상과 음성을 획득하고, 저장장치가 있다면 기억하는 것이 가능할테니 기존에도 이와 유사한 기술이나 제품이 없었던..

로컬 컴퓨터에 Pytorch 설치하는 방법입니다. 자주 사용하지는 않지만 conda나 venv로 가상환경을 만들 때 cuda 버전과 pytorch 버전 매칭을 할 때 가끔씩 필요한 경우가 있죠. 혹시나 모르시는 분들이 있을까 싶어 요약, 정리해 둡니다. 최신 버전 Pytorch 설치 커맨드정말 간단합니다. Pytorch 공식 사이트에 가보면 'Start Locally'에서 다음과 같이 커맨드를 확인할 수 있거든요. 이전 버전의 Pytorch에 대해서는? 앞서 언급한 페이지에 공개된 것은 가장 최신 버전들의 경우이고, 이전 버전의 경우는 이곳에서 확인할 수 있습니다. 그런데 위의 두 케이스에서 볼 수 있는 것처럼 torch, torchvision, torchaudio 는 셋트로 움직이는 것이라 버전을..

지난 글에서는 자신만의 손글씨 폰트 만들기에 대해 알아 봤습니다. 이제 실제로 만들어 보는 단계가 남았죠. 사실 GAN을 이용해 진행하는 모델들이 일부 있었는데, 제가 기본기가 허술하다보니 어디서 어떻게 접근해야 하는지를 몰라서 시도를 못하고 있던 터였습니다. 이제 AI의 도움을 받아가며 하나씩 진행해 보렵니다. 1. 구현하려는 내용 개요 및 요구사항이번에 하려는 작업은 다음과 같습니다. 목표 : 사용자 맞춤형 손글씨 폰트 자동 생성언어 : 한글, 영어요구 품질 : 적은 수의 샘플로 높은 품질의 폰트 생성기술 : 최신 AI 기술 활용 2. 적용 기술 선정폰트 제작에 활용할 수 있는 다양한 AI 모델이 있습니다. 대표적인 모델로는 다음과 같은 것들이 있습니다.GAN(Generative Adversaria..

최신 모델들을 보면 Hugging Face에 데모를 공개하는 경우가 많이 있습니다. 그 코드를 내 컴퓨터에서 돌려 보려면 어떻게 해야할까? 이 작업 과정을 간단하게 정리해 봅니다. Hugging Face Space clone 방법1️⃣ 도구 준비 (git, git-lfs 설치) Hugging Face 상의 파일은 git을 이용해서 clone할 수 있습니다. 하지만, 대용량 파일은 그렇게 안 됩니다. 그래서, 이를 위해 git lfs 를 추가로 설치해야 합니다.# git 설치$ sudo apt install git-all # git-lfs 설치$ git lfs install 2️⃣ 저장소(Repository) 복제 space의 저장소를 복제하는 커맨드는 다음과 같습니다. 기본적으로 lfs를 설치하고 나..

인공지능이 생성하는 이미지는 놀라운 품질과 세밀함을 보여주고 있습니다. 특히 확산 모델(diffusion model)의 등장 이후, 원하는 스타일이나 구체적인 특징을 반영한 이미지 생성이 가능해졌습니다. 하지만 실제로 사용자가 '이 사람은 이 스타일로', '이 배경은 이 인물과 함께' 같은 복잡한 조건을 동시에 만족시키려 할 때는 여전히 많은 제약이 따랐습니다. 기존 기술들은 보통 하나의 특성(예: 얼굴, 옷, 스타일 등)에만 초점을 맞췄기 때문입니다. 이런 한계를 넘어, 여러 조건을 한 번에 만족하는 이미지를 만들어낼 수 있도록 돕는 새로운 방법이 등장했습니다. 바로 ByteDance와 북경대학교 연구팀이 제안한 'DreamO'입니다. DreamO는 하나의 모델 안에서 다양한 조건(인물, 스타일, 배경..

Parakeet TDT0.6B는 최근 NVIDIA가 오픈소스로 공개한 음성인식(Speech Recognition) 모델입니다. 좋은 성능에 빠른 속도... 짧게라도 정리를 해 두고 넘어가야 할 것 같아서 기록해 둡니다. Parakeet TDT 1️⃣ 모델 특징6억개의 매개 변수를 가지는 ASR 모델입니다.FastConformer 인코더 아키텍처와 TDT 디코더를 기반으로 개발되었습니다. NVIDIA GPU 가속 시스템에서 실행되도록 설계 및 최적화되었습니다.NVIDIA NeMo를 설치하고 이를 이용해야 학습, 미세조정, 테스트, 배포 후 실행할 수 있습니다. 60분 분량의 음성을 1초 내에 전사(transcribe, 음성->텍스트) 할 수 있습니다. 구두점, 대문자 사용 및 정확한 타임스탬프 예측, 숫..

혹시 법정 드라마를 보면서 '나 대신 똑똑하고 말 잘하는 사람이 변론해주면 좋겠다'라는 생각을 해 본 적이 있으신가요? 아... 그런 사람이 변호사이긴 하죠. 하지만, 드라마에서 보여지는 변호사들과 실제 법정에 가서 보게 되는 변호사들은 사뭇 다를 수도 있습니다. 제가 예전에 구경가서 경험했었던 재판장에서는 사무적이고, 쟁점을 두고 논쟁을 하기보단 이미 재단되어 있는 형량이나 판결 내용에 추가로 재판장의 아량을 구하는 모습들이 대부분이었기 때문에 그렇게 판단하는 것인지도 모르겠습니다. AI 아바타, 소송의 새로운 대변자실제로 법정에 인공지능(AI)이 새로운 모습으로 등장하고 있다. 기존에는 법전과 판례를 분석하는 데 주로 활용되던 AI가 이제는 소송 당사자를 대신하는 아바타로 법정에 서며 재판의 판도..

conda를 이용해 가상 환경을 생성했는데 내용물(예: 설치된 각종 패키지 등)은 그대로 두고 이름만 변경하고 싶을 때가 있습니다. 그럴 때 어떻게 하는지 간단하게 정리해 두고 가겠습니다. 예전에는 conda 가상환경의 이름을 변경하는 것이 불가능했습니다. 대신 기존 환경을 clone 한 후에 기존 환경을 삭제하는 방식으로 진행해야 했습니다. 예를 들면 다음과 같이 말이죠.# 가상환경 복제$ conda create -n {new_name} --clone {old_name}# 기존 가상환경 삭제$ conda remove -n {old_name} --all 그러다 버전 4.14 버전 이후부터 rename 기능이 추가되었고 간단하게 다음과 같이 진행할 수 있게 되었습니다. 1️⃣ 기존 conda 환경 목..

한 때 자신만의 손글씨 폰트를 제작하는 열풍이 분 적이 있었습니다. 국내에서는 네이버와 보이저엑스에서 사람들의 신청을 받아서 손글씨를 AI 기술을 이용해 개인 폰트를 만들어주기도 했습니다. 보이저엑스의 경우, 현재는 중단했지만 '온글잎'이라는 이름으로 상용으로 제작 서비스를 제공하고도 했구요. 당시 이런 서비스들을 보면서 저도 '우와, 저런 건 나도 해 보고 싶다' 하는 생각을 가졌었더랬습니다. 하지만, 해 볼 수 있는 장비도 없고 능력치 밖이다 싶어서 관심만 가지고 있었죠. 그러다 몇 년이 지났습니다. 이것저것 평소에 만들어 보고 싶던 것들을 하나씩 해 보면서 정리하다보니 그때 해 봐야지 하며 기록해 둔 목록이 있어 다시 꺼내 봅니다. ^^ 1. 자신만의 폰트 제작1.1.폰트의 중요성폰트는 우리가 ..

VLM (Vision Language Model)이란?VLM은 Vision Language Model의 약자로, 이미지와 텍스트를 동시에 이해하고 처리할 수 있는 인공지능(AI) 모델입니다. 쉽게 말해, 사진을 보고 그 내용을 설명하거나, 텍스트를 바탕으로 이미지를 이해하고 질문에 답할 수 있는 기술이죠. 인간이 눈으로 보고 머리로 이해하는 것처럼, VLM은 시각 정보(이미지)와 언어 정보(텍스트)를 함께 학습해 다재다능하게 작동합니다. VLM 의 주요 특징은? 1️⃣ 이미지와 텍스트를 통합적으로 이해텍스트만 처리하는 언어 모델(예: GPT)과 달리, VLM은 이미지 속 객체, 장면, 행동 등을 분석할 수 있습니다.예) 사진 속 고양이를 보고 "이 동물은 무엇인가요?"라는 질문에 "고양이입니다"라고 답..