AI 탐구노트

olmOCR: PDF에서 자연어 처리를 위한 최적의 텍스트 추출 솔루션 본문

AI 기술

olmOCR: PDF에서 자연어 처리를 위한 최적의 텍스트 추출 솔루션

42morrow 2025. 3. 4. 15:08

 

 

디지털 문서의 핵심 정보는 PDF, Word, DjVu 등 다양한 포맷에 담겨 있습니다. 하지만 이러한 문서들은 본래의 레이아웃을 유지하는 데 초점이 맞춰져 있어 텍스트를 쉽게 추출하고 가공하는 것이 어렵습니다. 특히, PDF 파일은 단순한 텍스트 파일이 아니라 단어와 글자를 개별적인 그래픽 요소로 저장하며, 문서 내 논리적 순서를 따르지 않는 경우가 많습니다.

 

이러한 문제를 해결하기 위해 기존에는 광학 문자 인식(OCR, Optical Character Recognition) 기술이 사용되었습니다. 1950년대부터 연구되어 온 OCR 기술은 2006년 구글의 Tesseract 같은 오픈소스 툴을 통해 많은 발전을 이루었지만, 여전히 문서 내의 논리적 순서를 완전히 보존하기 어려운 문제가 남아 있었습니다.

 

Allen Institute for AI(AI2)에서 발표한 olmOCR은 이러한 문제를 해결하기 위한 새로운 접근법을 제시합니다. olmOCR은 PDF 파일에서 텍스트를 자연어 처리(NLP) 모델이 이해하기 쉬운 형태로 변환하는 비전-언어 모델(VLM, Vision Language Model) 기반의 도구입니다. 이를 통해 표, 수식, 다중 열 텍스트 등을 보다 정확하게 변환할 수 있으며, 높은 처리 속도와 저렴한 비용을 제공합니다.

 

그림 : olmOCR의 PDF 문서 처리 방식

 


기존 방식의 문제점

기존 PDF 텍스트 추출 기술은 크게 파이프라인 기반 시스템엔드 투 엔드 모델로 나뉩니다.

  • 파이프라인 기반 시스템 : 여러 개의 머신러닝 모델을 조합하여 문서를 분석하는 방식입니다. 대표적인 도구로는 Grobid, VILA, PaperMage 등이 있으며, 주로 과학 논문을 처리하는 데 특화되어 있습니다. 하지만 이 방식은 레이아웃이 복잡한 문서를 처리하는 데 한계가 있으며, 추출된 텍스트의 순서를 보장하기 어렵습니다.
  • 엔드 투 엔드 모델 : 한 개의 모델이 문서 이미지를 입력받아 바로 텍스트를 출력하는 방식입니다. Nougat이나 GOT Theory 2.0 같은 모델이 이에 해당합니다. 이러한 모델은 처리 과정이 단순하지만, 문서 내 텍스트의 정확한 위치를 반영하기 어려운 문제가 있습니다.

또한, 기존의 OCR 기반 솔루션들은 읽기 순서(linearization) 문제를 효과적으로 해결하지 못했습니다. 다중 열 문서나 표, 수식, 주석이 포함된 문서에서 텍스트 순서를 잘못 정렬하는 경우가 많아, 이를 AI 모델이 직접 학습하기 어렵게 만들었습니다.

 

그림 : PDF가 텍스트를 저장하는 방식 예시

 

위 그림은 PDF 파일이 텍스트를 어떻게 저장하는지를 보여주고 있습니다. 문서를 개별 문자를 각기 다른 위치 좌표와 폰트 크기로

 

저장하기 때문에 논리적 읽기 순서 보장이 어렵게 됩니다. 


olmOCR

olmOCR의 접근 방식

olmOCR은 비전-언어 모델(VLM)을 활용하여 PDF 내 텍스트를 보다 정확하게 추출하는 방법을 제안합니다. 핵심적인 접근법은 문서 앵커링(document anchoring) 기법입니다.

  • PDF에서 텍스트 블록과 이미지의 좌표 정보를 추출하여 문서 내 논리적 관계를 파악
  • 이를 비전-언어 모델(VLM)에 입력하여 자연어 처리가 가능한 텍스트 형식으로 변환
  • Markdown 포맷을 활용하여 표, 리스트, 수식 등 구조화된 콘텐츠 보존

이러한 방식으로 olmOCR은 단순히 OCR을 수행하는 것이 아니라, 문서의 레이아웃을 이해하고 이를 자연어 모델이 활용할 수 있도록 변환하는 역할을 합니다.

olmOCR에 적용된 세부 기술

1) 문서 앵커링(Document Anchoring)

문서 내 각 요소의 좌표 정보를 활용하여, 문서 구조를 정확하게 반영하는 기법입니다.

  • 텍스트 블록과 이미지 좌표 추출 (PyPDF 활용)
  • 레이아웃 분석을 기반으로 VLM에 입력
  • 텍스트 순서를 자연스러운 읽기 순서로 정렬

그림 : Document Anchoring 동작 방식 설명

 

 2) 비전-언어 모델(Vision Language Model) 활용

  • 7B 파라미터 크기의 VLM 모델 (Qwen2-VL-7B-Instruct 기반)
  • 260,000개 이상의 PDF 페이지 학습 데이터 활용
  • GPT-4o 기반 데이터 증강(Silver Labeling) 기법 적용

 3) 비용 효율적인 대규모 처리

olmOCR은 SGLang 및 vLLM 같은 고속 추론 엔진을 활용하여 대량의 문서를 빠르게 변환할 수 있습니다.

  • 1백만 개의 PDF 페이지 변환 비용: 190달러
  • GPT-4o API 대비 32배 저렴한 비용

 

그림 : 정부 공고문 PDF를 이용해 테스트해 본 결과 (좌: 원본, 우:결과물)

 

olmOCR 제약사항

  • 문서 앵커링 기법은 출력되는 JSON 스키마가 변형되면 성능 저하 가능성이 있음
  • 손상된 PDF 파일이나 이미지만 포함된 문서의 경우 OCR 성능 저하 가능
  • 특정 복잡한 레이아웃에서는 부분적인 오류가 발생할 수 있음

olmOCR은 기존 OCR 기술의 한계를 극복하고, AI 모델이 보다 쉽게 활용할 수 있도록 PDF의 텍스트를 변환하는 혁신적인 도구입니다.

  • 기존 OCR보다 더 높은 정밀도로 문서를 변환 가능
  • 비용 효율적인 대규모 처리 가능 (GPT-4o 대비 32배 저렴)
  • Markdown 포맷을 통해 표, 수식 등의 구조적 정보 유지

향후 olmOCR의 기술이 발전하면 더 높은 정밀도를 가지는 자동 문서 분석 시스템이 가능해질 것이며, 대규모 언어 모델(LLM) 학습 데이터 확보에도 기여할 수 있을 것입니다.


참고자료

  • 논문) olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models (링크)
  • 소개영상) olmOCR - The Open OCR System (링크)
  • 데모) olmOCR 데모 페이지 (링크)

Q&A

Q. olmOCR은 일반적인 OCR과 어떻게 다른가요?

olmOCR은 단순한 문자 인식(OCR) 도구가 아니라 비전-언어 모델(VLM)을 활용한 문서 구조 분석 시스템입니다. 단순히 텍스트를 추출하는 것이 아니라, 문서의 논리적 순서를 보장하며, 표, 수식, 다중 열 텍스트까지 정리된 형태로 변환할 수 있습니다.

 

Q. olmOCR을 직접 사용해볼 수 있나요?

네, olmOCR은 오픈소스로 제공되며 GitHub 및 Hugging Face에서 모델과 데이터셋을 다운로드할 수 있습니다. 또한 olmOCR 웹 데모를 통해 직접 테스트할 수도 있습니다.

 

Q. 어떤 환경에서 olmOCR을 실행할 수 있나요?

olmOCR은 GPU를 활용하는 SGLang 및 vLLM 엔진을 기반으로 최적화되어 있습니다. 대규모 문서 처리를 위해 클라우드 환경에서도 효율적으로 실행 가능합니다.