Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- 우분투
- gaussian splatting
- 일론 머스크
- PYTHON
- 트랜스포머
- 딥러닝
- 이미지 생성
- 음성합성
- 오블완
- 인공지능
- AI
- 이미지 편집
- 음성 인식
- XAI
- 메타
- ChatGPT
- 생성형AI
- 바이브코딩
- tts
- OpenAI
- 감정 표현
- 강화학습
- 자동화
- 멀티모달
- 티스토리챌린지
- LLM
- 오픈소스
- 오픈AI
- 확산 모델
- AI 기술
Archives
- Today
- Total
목록Self-Reward (1)
AI 탐구노트
최근 인공지능 분야에서는 이미지를 이해하고 질문에 답할 수 있는 시각-언어 모델(Vision-Language Model, VLM)이 크게 발전하고 있습니다. 이 모델들은 GPT처럼 강력한 언어 모델에 이미지 인식 기능을 결합하여, 시각적 정보를 기반으로 한 질문에도 자연스럽게 답할 수 있게 합니다. 예를 들어, 이미지를 보고 '이 사람은 무슨 감정을 느끼고 있나요?'라는 질문에 답할 수 있는 것입니다. 하지만 이런 모델들은 아직 한 가지 큰 문제를 가지고 있습니다. 바로 이미지에 없는 정보를 지어내는 '환각(hallucination)' 현상이나, 이미지를 보지 않고 질문만으로 답을 유추하는 '언어 지름길(language shortcut)'을 사용하는 경우가 많다는 것입니다. 이는 모델이 실제 이미지를 제..
AI 기술
2025. 9. 2. 10:35
