PDFA-ENG-WDS : 영어 위주의 대규모 OCR 데이터셋

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

AI 탐구노트

PDFA-ENG-WDS : 영어 위주의 대규모 OCR 데이터셋 본문

AI 기술

PDFA-ENG-WDS : 영어 위주의 대규모 OCR 데이터셋

42morrow 2024. 9. 4. 12:59

PDF 문서에서 텍스트와 이미지 정보를 추출하여 기계 학습에 적합한 형태로 제공하는 데이터셋

PDFA-ENG-WDS는 PDF 문서에서 텍스트와 이미지 정보를 추출하여 기계 학습에 적합한 형태로 제공하는 데이터셋입니다.

이 데이터셋은 텍스트와 이미지의 바운딩 박스 정보를 포함한 OCR 주석을 제공하며, 주로 영어 문서를 대상으로 필터링되었습니다. 이미지-텍스트 멀티모달 학습에 사용될 수 있으며, 데이터셋 크기는 약 1.5TB 로, 대규모 학습에 최적화된 형식으로 제공된다고 합니다. 웹 데이터셋(WDS) 형식으로 제공되어 효율적인 다운로드와 처리가 가능합니다.

아래 그림은 PDF에서 바운딩 박스 정보를 포함한 OCR 데이터를 추출한 데이터 예시를 보여주고 있습니다.

이 데이터셋은 영어 PDF 문서에서 텍스트와 이미지 데이터를 추출한 대규모 데이터셋이긴 하지만, 데이터셋의 언어 별 분포 그래프를 보면 아주 일부지만 독일어, 프랑스어, 스페인어, 이탈리아어, 일본어 등의 다른 언어도 포함되어 있긴 합니다.

'AI 기술' 카테고리의 다른 글

HivisionIDPhotos : ID사진(증명사진)을 생성해 주는 도구 (0)	2024.09.06
FLUXMusic : 텍스트-음악 생성 모델 (1)	2024.09.05
SAM2Point : 3D 분할 수행 모델 (0)	2024.09.03
StreamingT2V : 일관되고 역동적인 긴 영상 생성 기법 (0)	2024.09.02
EAGLE : 비전 인코더 결합으로 MLLM의 시각 능력을 최적화한 모델 (0)	2024.08.30

'AI 기술' Related Articles

AI 탐구노트

PDFA-ENG-WDS : 영어 위주의 대규모 OCR 데이터셋 본문

PDFA-ENG-WDS : 영어 위주의 대규모 OCR 데이터셋

'AI 기술' 카테고리의 다른 글

티스토리툴바