일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- OpenCV
- tts
- 멀티모달
- 티스토리챌린지
- 오픈소스
- 이미지 생성
- OpenAI
- 생성형 AI
- 트랜스포머
- 오블완
- AI
- PYTHON
- 오픈AI
- AI 기술
- 다국어 지원
- LORA
- LLM
- 시간적 일관성
- 강화 학습
- TRANSFORMER
- 인공지능
- 일론 머스크
- 딥러닝
- 메타
- 휴머노이드 로봇
- ChatGPT
- 확산 모델
- 아두이노
- 우분투
- 실시간 렌더링
- Today
- Total
목록텍스트 추출 (2)
AI 탐구노트

Marker란?Marker는 PDF와 이미지 파일을 Markdown, JSON, HTML 등 다양한 형식으로 변환하여 문서의 텍스트, 테이블, 수식, 코드 블록, 이미지 등을 추출하고 포맷팅하는 도구입니다. 이 프로젝트는 VikParuchuri가 주도하여 개발되었으며, 오픈 소스 라이선스(GPL-3.0)를 기반으로 제공됩니다. 그리고, 자체 API를 서비스하고 있죠. 또한, Marker 관련 논의와 향후 개발 방향은 Discord 등 커뮤니티 채널에서 활발하게 이루어지고 있습니다. Marker를 어떤 곳에 사용할까?문서 디지털화 및 텍스트 추출복잡한 레이아웃(테이블, 폼, 수식 등)을 원본과 유사하게 재구성개발자나 연구자가 문서 데이터를 후처리하거나 분석할 때 활용CLI, Python API, 인터랙..

PDF 문서에서 텍스트와 이미지 정보를 추출하여 기계 학습에 적합한 형태로 제공하는 데이터셋 PDFA-ENG-WDS는 PDF 문서에서 텍스트와 이미지 정보를 추출하여 기계 학습에 적합한 형태로 제공하는 데이터셋입니다. 이 데이터셋은 텍스트와 이미지의 바운딩 박스 정보를 포함한 OCR 주석을 제공하며, 주로 영어 문서를 대상으로 필터링되었습니다. 이미지-텍스트 멀티모달 학습에 사용될 수 있으며, 데이터셋 크기는 약 1.5TB 로, 대규모 학습에 최적화된 형식으로 제공된다고 합니다. 웹 데이터셋(WDS) 형식으로 제공되어 효율적인 다운로드와 처리가 가능합니다. 아래 그림은 PDF에서 바운딩 박스 정보를 포함한 OCR 데이터를 추출한 데이터 예시를 보여주고 있습니다. 이 데이터셋은 영어 PDF 문서에서 텍..