'KOSMOS-2.5' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록KOSMOS-2.5 (1)

AI 탐구노트

KOSMOS-2.5 : 문서 OCR를 넘어 ‘마크다운 이해’까지 하는 멀티모달 리터러시 모델

디지털 문서의 양이 폭발적으로 증가하면서, 이 문서들을 읽고 이해하는 AI의 필요성이 커졌습니다. 특히 논문, 웹페이지, 영수증, 설계도와 같은 '텍스트 집약형 이미지'는 기존의 AI 시스템에 많은 한계를 드러내고 있습니다. 이미지에 포함된 텍스트만 읽는 것을 넘어서, 그 구조와 의미를 함께 이해하려면 더 정교한 기술이 필요합니다. 슬라이드, 보고서, 논문 같은 글자가 빽빽한 이미지는 사람에게는 자연스럽지만, 기계에게는 여전히 버거운 영역인 것은 한 줄씩 글자를 읽는 것만으로는 표의 구조, 제목과 본문의 계층, 읽어야 할 순서를 제대로 복원하기 어렵기 때문이죠. 그래서 문서 자동화 현장에서는 OCR(광학문자판독) 결과를 다시 후처리해 레이아웃을 복구하는 시행착오가 반복됩니다. 최근에는 멀티모달 대형언어모..

AI 기술 2025. 9. 16. 18:49

이전 Prev 1 Next 다음

목록KOSMOS-2.5 (1)

AI 탐구노트

티스토리툴바