일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 오블완
- 딥러닝
- ubuntu
- 메타
- 실시간 렌더링
- 오픈AI
- 우분투
- 티스토리챌린지
- 휴머노이드 로봇
- PYTHON
- 3d 재구성
- 시간적 일관성
- LORA
- LLM
- 다국어 지원
- 확산 모델
- Stable Diffusion
- 일론 머스크
- 코딩
- 인공지능
- 트랜스포머
- 강화 학습
- 생성형AI
- AI 기술
- OpenCV
- tts
- OpenAI
- AI
- 생성형 AI
- 오픈소스
- Today
- Total
목록OCR (2)
AI 탐구노트

문서를 디지털 데이터로 변환하는 것은 생각보다 어려운 작업입니다. 특히 PDF 문서는 인쇄에 최적화된 형식이라 내부 내용을 쉽게 분석하기 어렵습니다. 문서에는 텍스트뿐만 아니라 표, 수식, 차트, 코드 같은 다양한 요소가 포함되어 있어 단순한 OCR(광학 문자 인식) 기술만으로 정확한 변환이 어렵습니다. 기존에는 두 가지 방식이 많이 사용되었습니다. 첫 번째는 각 요소를 따로 처리하는 시스템입니다. 예를 들어, OCR 기술로 텍스트를 인식한 후, 별도의 모델이 문서 레이아웃을 분석하고, 또 다른 모델이 표나 수식을 변환하는 방식입니다. 이렇게 하면 비교적 정확한 결과를 얻을 수 있지만, 여러 모델을 조합해야 해서 시스템이 복잡해지고 처리 속도가 느려지는 단점이 있습니다. 두 번째는 대형 AI 모델을 이용..

디지털 문서의 핵심 정보는 PDF, Word, DjVu 등 다양한 포맷에 담겨 있습니다. 하지만 이러한 문서들은 본래의 레이아웃을 유지하는 데 초점이 맞춰져 있어 텍스트를 쉽게 추출하고 가공하는 것이 어렵습니다. 특히, PDF 파일은 단순한 텍스트 파일이 아니라 단어와 글자를 개별적인 그래픽 요소로 저장하며, 문서 내 논리적 순서를 따르지 않는 경우가 많습니다. 이러한 문제를 해결하기 위해 기존에는 광학 문자 인식(OCR, Optical Character Recognition) 기술이 사용되었습니다. 1950년대부터 연구되어 온 OCR 기술은 2006년 구글의 Tesseract 같은 오픈소스 툴을 통해 많은 발전을 이루었지만, 여전히 문서 내의 논리적 순서를 완전히 보존하기 어려운 문제가 남아 있었습니다..