| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- 오픈AI
- 메타
- 딥러닝
- AI 기술
- XAI
- 음성 인식
- 트랜스포머
- OpenAI
- tts
- 멀티모달
- 확산 모델
- 오픈소스
- AI
- 바이브코딩
- 우분투
- 감정 표현
- gaussian splatting
- 생성형AI
- 일론 머스크
- PYTHON
- 이미지 편집
- 강화학습
- 오블완
- 인공지능
- ChatGPT
- 음성합성
- 자동화
- LLM
- 이미지 생성
- 티스토리챌린지
- Today
- Total
목록self-attention (2)
AI 탐구노트
Vision Transformer(ViT)는 이미지를 일정한 크기의 patch로 나누어 token으로 변환한 뒤, self-attention 구조를 통해 전체 이미지를 이해합니다. 하지만 문제는, 하늘처럼 단순한 영역과 사람 얼굴처럼 복잡한 영역을 모두 같은 크기와 개수의 patch로 처리한다는 점입니다. 이런 방식은 불필요하게 긴 token 시퀀스를 만들고, self-attention의 계산량이 token 수의 제곱에 비례하기 때문에 훈련과 추론 모두 매우 느려집니다. 이런 문제를 해결하기 위해 Adaptive Patch Transformer(APT) 라는 간단하면서도 실용적인 방식이 제안되었습니다. 핵심 아이디어는 이미지의 내용(content) 에 따라 patch 크기를 바꾸는 것입니다. 즉, 하늘이..
우리의 시각 시스템은 매우 정교합니다. 예를 들어, 조명이 달라지거나 물체의 텍스처(질감)가 바뀌더라도 우리는 그것이 같은 사물이라는 것을 쉽게 인식할 수 있습니다. 이런 능력은 물체를 구성하는 세부적인 요소뿐 아니라, 전체적인 형태나 구조적 관계를 파악할 수 있기 때문입니다. 하지만 인공지능, 특히 컴퓨터 비전 모델은 이러한 능력에서 아직 인간만큼 뛰어나지 못합니다. 이미지의 일부분만을 보고 판단하거나, 질감에만 의존하여 전체 구조를 놓치는 경우가 많죠. 최근에는 딥러닝 기술이 발전하면서 다양한 비전 모델들이 등장했지만, 여전히 ‘전체적인 형태’를 파악하는 능력에는 한계가 있다는 지적이 있습니다. 그 한계를 넘기 위한 새로운 평가 기준인 Configural Shape Score(CSS)와 이를 테스트하..
