Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- 자동화
- 멀티모달
- 오픈AI
- 음성합성
- AI 기술
- 우분투
- 강화학습
- 감정 표현
- XAI
- 이미지 생성
- tts
- LLM
- 딥러닝
- AI
- ChatGPT
- 트랜스포머
- 오픈소스
- 음성 인식
- 확산 모델
- PYTHON
- 바이브코딩
- 이미지 편집
- gaussian splatting
- 생성형AI
- 일론 머스크
- 오블완
- 티스토리챌린지
- 메타
- 인공지능
- OpenAI
Archives
- Today
- Total
목록Visual Hallucination (1)
AI 탐구노트
최근 인공지능 분야에서는 이미지를 이해하고 질문에 답할 수 있는 시각-언어 모델(Vision-Language Model, VLM)이 크게 발전하고 있습니다. 이 모델들은 GPT처럼 강력한 언어 모델에 이미지 인식 기능을 결합하여, 시각적 정보를 기반으로 한 질문에도 자연스럽게 답할 수 있게 합니다. 예를 들어, 이미지를 보고 '이 사람은 무슨 감정을 느끼고 있나요?'라는 질문에 답할 수 있는 것입니다. 하지만 이런 모델들은 아직 한 가지 큰 문제를 가지고 있습니다. 바로 이미지에 없는 정보를 지어내는 '환각(hallucination)' 현상이나, 이미지를 보지 않고 질문만으로 답을 유추하는 '언어 지름길(language shortcut)'을 사용하는 경우가 많다는 것입니다. 이는 모델이 실제 이미지를 제..
AI 기술
2025. 9. 2. 10:35
