| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- OpenAI
- PYTHON
- 딥러닝
- 오블완
- AI
- 오픈AI
- AI 기술
- 이미지 생성
- ChatGPT
- gaussian splatting
- 바이브코딩
- XAI
- 우분투
- 이미지 편집
- LLM
- 확산 모델
- 감정 표현
- 음성합성
- 트랜스포머
- 멀티모달
- 오픈소스
- 강화학습
- 생성형AI
- 자동화
- 음성 인식
- 일론 머스크
- 인공지능
- 티스토리챌린지
- tts
- 메타
- Today
- Total
목록attention (3)
AI 탐구노트
요즘 인공지능은 카메라 영상만으로 3D 공간을 이해하는 수준까지 발전했습니다. 여러 장의 이미지를 함께 분석해 장면의 구조를 복원하는 '멀티뷰 3D 모델'이 대표적 사례입니다. 이런 기술은 최근 각광을 받고 있느 로봇, AR/VR, 자율주행에서 꼭 필요합니다. 하지만 문제가 있습니다. 이미지가 계속 들어오는 실시간 환경에서는 연산량이 너무 많다는 것입니다. 특히 트랜스포머 기반 모델은 이미지 수가 늘어날수록 계산량이 급격히 증가하게 됩니다. 논문에서는, 기존 모델을 다시 학습하지 않고도, 훨씬 빠르게 동작하게 만드는 방법을 제안합니다. KV-Tracker 1) 기존 방식의 문제점 멀티뷰 모델은 여러 이미지를 한 번에 처리합니다. 모든 이미지가 서로를 참고하는 '전역 어텐션'을 사용하기 때문입니다. ..
인간의 시각은 복잡한 화면 속에서도 자연스럽게 하나의 사물을 통째로 인식합니다. 예를 들어, 책상 위에 있는 커피잔을 보면 둥근 모양, 하얀 색, 손잡이 같은 여러 특징이 흩어진 정보로 느껴지지 않고 하나의 커피잔으로 묶어서 보는거죠. 이런 능력을 객체 바인딩(Object Binding)이라고 부릅니다. 객체 바인딩은 우리가 사물을 추적하거나, 비슷한 물체를 헷갈리지 않고 구분하는 데 꼭 필요합니다. 하지만 이런 자연스러운 과정이 AI에게도 당연히 생기는 걸까요?요즘 AI 비전 분야에서 가장 강력한 모델은 비전 트랜스포머(Vision Transformer, 이하 ViT)입니다. ViT는 이미 다양한 이미지 분류/세그멘테이션/비전-언어 모델의 핵심이 되었지만, 한 가지 오해가 늘 따라붙습니다. 'ViT는 ..
Black Forest Labs의 이미지 to 이미지 모델인 FLUX.1 Kontext 관련 소식 간단히 소개드립니다. FLUX.1 Kontext와 관련해서는 예전 글에서 대략적인 것과 ComfyUI를 통해 로드해서 로컬에서 사용하는 것도 소개 드린 바 있습니다. FLUX.1 Kontext [dev] 오픈소스 공개 - 로컬에서도 쓸 수 있다!예전 글에 FLUX.1 Kontext [dev]에 대해서 소개한 바가 있었습니다. 하지만 API로만 사용 가능했고 이를 서비스하는 플랫폼을 활용해야만 사용해 볼 수 있었습니다. 그래서, 당시 소개글은, 지금은 내42morrow.tistory.com 당시 한가지 아쉬웠던 점은, 일단 '한장 작업하는데 상당한 시간이 걸리더라' 하는 것과 'VRAM이 부족한 저사양 ..
