AI 탐구노트

PDFA-ENG-WDS : 영어 위주의 대규모 OCR 데이터셋 본문

AI 기술

PDFA-ENG-WDS : 영어 위주의 대규모 OCR 데이터셋

42morrow 2024. 9. 4. 12:59
PDF 문서에서 텍스트와 이미지 정보를 추출하여 기계 학습에 적합한 형태로 제공하는 데이터셋

 

PDFA-ENG-WDS는 PDF 문서에서 텍스트와 이미지 정보를 추출하여 기계 학습에 적합한 형태로 제공하는 데이터셋입니다.

 

이 데이터셋은 텍스트와 이미지의 바운딩 박스 정보를 포함한 OCR 주석을 제공하며, 주로 영어 문서를 대상으로 필터링되었습니다. 이미지-텍스트 멀티모달 학습에 사용될 수 있으며, 데이터셋 크기는 약 1.5TB 로, 대규모 학습에 최적화된 형식으로 제공된다고 합니다. 웹 데이터셋(WDS) 형식으로 제공되어 효율적인 다운로드와 처리가 가능합니다.

 

아래 그림은 PDF에서 바운딩 박스 정보를 포함한 OCR 데이터를 추출한 데이터 예시를 보여주고 있습니다. 

사진 : PDF에서 데이터 추출 예시

 

 

이 데이터셋은 영어 PDF 문서에서 텍스트와 이미지 데이터를 추출한 대규모 데이터셋이긴 하지만, 데이터셋의 언어 별 분포 그래프를 보면 아주 일부지만 독일어, 프랑스어, 스페인어, 이탈리아어, 일본어 등의 다른 언어도 포함되어 있긴 합니다.

 

사진 : 데이터셋 상의 언어 분포 (거의 영어가 대부분)