Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 3d 재구성
- XAI
- 오픈소스
- OpenAI
- LORA
- tts
- 메타
- AI
- AI 기술
- 인공지능
- LLM
- 딥러닝
- 오블완
- 실시간 렌더링
- 코딩
- PYTHON
- 확산 모델
- 생성형 AI
- 다국어 지원
- 오픈AI
- OpenCV
- 시간적 일관성
- 강화 학습
- 티스토리챌린지
- ChatGPT
- 우분투
- 일론 머스크
- 트랜스포머
- 휴머노이드 로봇
- ubuntu
Archives
- Today
- Total
AI 탐구노트
Marker : PDF와 이미지 파일을 다양한 포맷으로 변환하는 도구 본문
Marker란?
Marker는 PDF와 이미지 파일을 Markdown, JSON, HTML 등 다양한 형식으로 변환하여 문서의 텍스트, 테이블, 수식, 코드 블록, 이미지 등을 추출하고 포맷팅하는 도구입니다.
이 프로젝트는 VikParuchuri가 주도하여 개발되었으며, 오픈 소스 라이선스(GPL-3.0)를 기반으로 제공됩니다. 그리고, 자체 API를 서비스하고 있죠. 또한, Marker 관련 논의와 향후 개발 방향은 Discord 등 커뮤니티 채널에서 활발하게 이루어지고 있습니다.
Marker를 어떤 곳에 사용할까?
- 문서 디지털화 및 텍스트 추출
- 복잡한 레이아웃(테이블, 폼, 수식 등)을 원본과 유사하게 재구성
- 개발자나 연구자가 문서 데이터를 후처리하거나 분석할 때 활용
- CLI, Python API, 인터랙티브 앱, API 서버 등을 통해 다양한 환경에서 쉽게 통합 가능
Marker의 세부 기능은?
Marker는 PDF와 이미지 파일을 빠르고 정확하게 Markdown, JSON, HTML로 변환하는 도구로, 주요 기능은 다음과 같이 요약할 수 있습니다:
- 문서 변환 :
다양한 입력 파일(PDF, 이미지)을 받아, 텍스트, 테이블, 수식, 코드 블록, 이미지 등 복합 요소를 잘 처리하여 원하는 출력 형식(Markdown, HTML, JSON)으로 변환합니다. - 세부 요소 처리 :
문서 내 불필요한 헤더/푸터를 제거하고, 테이블, 폼, 인라인 수학 등 복잡한 레이아웃 요소를 원본에 가깝게 재구성합니다. - 고성능 및 하이브리드 모드 :
배치 처리 시 초당 최대 122페이지를 처리할 정도의 빠른 속도를 자랑하며, LLM(대형 언어 모델)을 활용하는 하이브리드 모드로 더욱 높은 정확도를 제공합니다. - 유연한 실행 환경 및 확장성 :
CLI, Python API, 인터랙티브 앱, API 서버 등 다양한 방식으로 사용 가능하며, GPU, CPU, MPS 등 여러 하드웨어 환경에서 실행할 수 있습니다. - 확장성 :
모듈화된 구조 덕분에 사용자 맞춤형 커스터마이징과 확장이 용이합니다. - 세부 설정 :
OCR 처리, 페이지 범위, 디버그 모드 등 다양한 옵션을 제공합니다.
이처럼 Marker는 고속 변환, 복잡한 문서 구성 요소 처리, 그리고 유연한 사용 환경을 제공하여 다양한 문서 변환 요구를 효과적으로 지원합니다. 특히나 멀티 프로세싱이나 멀티 노드를 지원한다는 점은 인상적입니다. 한번에 많은 작업을 배치성으로 돌릴 수 있다는 얘기일테니까요.
Marker의 적용 예시
실제 처리 결과는 다음과 같습니다. 표와 관련해서는 대략적으로 보면 잘 하고 있는 것 같긴 합니다. 다만, 우리나라처럼 표에 진심인, 즉 엄청 복잡한 표를 많이 다루는 경우는 Marker를 이용해도 어려울 수 있겠다는 생각을 해 봤습니다.
참고자료
- Marker 코드 (Github Repo)
'AI 기술' 카테고리의 다른 글
LiteRT : 엣지 온디바이스 기기를 위한 AI 런타임 (0) | 2025.03.01 |
---|---|
Anthropic의 새로운 하이브리드 추론 모델 : Claude 3.7 Sonnet (0) | 2025.02.26 |
ZONOS : 다국어, 감정표현도 잘 되는 오픈소스 TTS 모델 (0) | 2025.02.18 |
Inferring from Logits : 디코딩 없는 생성 모델 후보 선택,최적의 접근법 탐색 (1) | 2025.02.10 |
SVFR : 통합된 비디오 얼굴 복원 프레임워크 (0) | 2025.02.08 |