'텍스트 추출' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록텍스트 추출 (2)

AI 탐구노트

Marker : PDF와 이미지 파일을 다양한 포맷으로 변환하는 도구

Marker란?Marker는 PDF와 이미지 파일을 Markdown, JSON, HTML 등 다양한 형식으로 변환하여 문서의 텍스트, 테이블, 수식, 코드 블록, 이미지 등을 추출하고 포맷팅하는 도구입니다. 이 프로젝트는 VikParuchuri가 주도하여 개발되었으며, 오픈 소스 라이선스(GPL-3.0)를 기반으로 제공됩니다. 그리고, 자체 API를 서비스하고 있죠. 또한, Marker 관련 논의와 향후 개발 방향은 Discord 등 커뮤니티 채널에서 활발하게 이루어지고 있습니다. Marker를 어떤 곳에 사용할까?문서 디지털화 및 텍스트 추출복잡한 레이아웃(테이블, 폼, 수식 등)을 원본과 유사하게 재구성개발자나 연구자가 문서 데이터를 후처리하거나 분석할 때 활용CLI, Python API, 인터랙..

AI 기술 2025. 2. 22. 08:33

PDFA-ENG-WDS : 영어 위주의 대규모 OCR 데이터셋

PDF 문서에서 텍스트와 이미지 정보를 추출하여 기계 학습에 적합한 형태로 제공하는 데이터셋 PDFA-ENG-WDS는 PDF 문서에서 텍스트와 이미지 정보를 추출하여 기계 학습에 적합한 형태로 제공하는 데이터셋입니다. 이 데이터셋은 텍스트와 이미지의 바운딩 박스 정보를 포함한 OCR 주석을 제공하며, 주로 영어 문서를 대상으로 필터링되었습니다. 이미지-텍스트 멀티모달 학습에 사용될 수 있으며, 데이터셋 크기는 약 1.5TB 로, 대규모 학습에 최적화된 형식으로 제공된다고 합니다. 웹 데이터셋(WDS) 형식으로 제공되어 효율적인 다운로드와 처리가 가능합니다. 아래 그림은 PDF에서 바운딩 박스 정보를 포함한 OCR 데이터를 추출한 데이터 예시를 보여주고 있습니다. 이 데이터셋은 영어 PDF 문서에서 텍..

AI 기술 2024. 9. 4. 12:59

이전 Prev 1 Next 다음

목록텍스트 추출 (2)

AI 탐구노트

티스토리툴바