Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- 멀티모달
- XAI
- AI
- 인공지능
- 트랜스포머
- tts
- 이미지 생성
- LLM
- 메타
- 우분투
- AI 기술
- 생성형AI
- gaussian splatting
- 오픈AI
- 티스토리챌린지
- PYTHON
- 자동화
- 일론 머스크
- 감정 표현
- OpenAI
- 오블완
- 음성합성
- 확산 모델
- ChatGPT
- 오픈소스
- 딥러닝
- 음성 인식
- 강화학습
- 바이브코딩
- 이미지 편집
Archives
- Today
- Total
목록QueryPropagation (1)
AI 탐구노트
최근 인공지능 산업에서는 크게 미리 학습된 모델이 여러 문제를 한 번에 해결하는 흐름이 강해지고 있습니다. 올인원 형태로 말이죠. 특히 Vision Transformer(ViT)는 이미지 분류를 넘어 객체 감지, 이미지 분할까지 확장되었습니다. 예전에는 작업마다 별도의 전용 구조를 붙여야 했지만, 이제는 강력한 사전학습 모델 하나가 여러 기능을 대신하는 방향으로 발전하고 있습니다. 비디오 세그멘테이션도 비슷합니다. 한 프레임에서 객체를 나누는 일과, 프레임 사이에서 같은 객체를 연결하는 일은 서로 다른 문제로 여겨졌습니다. 그래서 모델은 점점 복잡해졌고, 속도는 느려졌죠. 그래서, 연구진들은 과연 정말 이렇게 많은 모듈이 필요할까 하는 질문을 던졌고 이에 대한 답으로 나온 것이 VidEoMT입니다. ..
AI 기술
2026. 3. 3. 16:36
