Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- 인공지능
- AI 기술
- 생성형AI
- 우분투
- OpenAI
- 오블완
- tts
- 오픈소스
- 트랜스포머
- gaussian splatting
- 딥러닝
- 오픈AI
- 이미지 편집
- XAI
- 확산 모델
- 바이브코딩
- 멀티모달
- AI
- 감정 표현
- 이미지 생성
- ChatGPT
- 자동화
- 일론 머스크
- 음성합성
- 음성 인식
- PYTHON
- 강화학습
- LLM
- 티스토리챌린지
- 메타
Archives
- Today
- Total
목록KOSMOS-2.5 (1)
AI 탐구노트
디지털 문서의 양이 폭발적으로 증가하면서, 이 문서들을 읽고 이해하는 AI의 필요성이 커졌습니다. 특히 논문, 웹페이지, 영수증, 설계도와 같은 '텍스트 집약형 이미지'는 기존의 AI 시스템에 많은 한계를 드러내고 있습니다. 이미지에 포함된 텍스트만 읽는 것을 넘어서, 그 구조와 의미를 함께 이해하려면 더 정교한 기술이 필요합니다. 슬라이드, 보고서, 논문 같은 글자가 빽빽한 이미지는 사람에게는 자연스럽지만, 기계에게는 여전히 버거운 영역인 것은 한 줄씩 글자를 읽는 것만으로는 표의 구조, 제목과 본문의 계층, 읽어야 할 순서를 제대로 복원하기 어렵기 때문이죠. 그래서 문서 자동화 현장에서는 OCR(광학문자판독) 결과를 다시 후처리해 레이아웃을 복구하는 시행착오가 반복됩니다. 최근에는 멀티모달 대형언어모..
AI 기술
2025. 9. 16. 18:49
