AI 탐구노트

Surya : 90여개 다국어를 지원하는 OCR 툴킷 본문

AI 기술

Surya : 90여개 다국어를 지원하는 OCR 툴킷

42morrow 2024. 8. 21. 22:48

 

Surya 소개 

 

Surya는 문서 OCR 툴킷으로 90 여개의 언어를 지원하며, 라인 단위의 텍스트 감지와 문서의 레이아웃 분석 (예: 테이블, 이미지, 헤더 등등의 감지), 읽는 순서의 감지 등의 기능을 제공합니다.

 

surya-ocr이라는 python 패키지 형태로 제공되어 손쉽게 설치해서 사용해 볼 수 있습니다. 특징으로는 문서에 특화되어 있어서 일반 이미지에서는 제대로 동작하지 않을 수 있고, 인쇄체에서 잘 되며, 포함되어 있는 광고를 걸러내도록 학습되었다고 합니다. 아래 사진에 나온 뉴욕타임지 신문의 예를 보면 각 기사들의 타이틀, 서브 타이틀, 단락 구분 그리고 레이아웃 상에서 읽어 나가는 순서도 잘 인식하고 있다는 것을 볼 수 있습니다.

 

  • 'Surya'는 힌두교 태양신의 이름이라고 합니다.
  • 국내신문 이미지를 이용해서 돌려봤는데 흠... 제가 설정을 제대로 하지 않아서 그런지 잘 되진 않았습니다. 혹시 관심 있으시면 한번 시도해 보세요.

사진 : 신문 이미지를 Surya 모델에 적용한 예시

 

 

 


참고자료

 

1.코드 (깃헙)

 

 

GitHub - VikParuchuri/surya: OCR, layout analysis, reading order, table recognition in 90+ languages

OCR, layout analysis, reading order, table recognition in 90+ languages - VikParuchuri/surya

github.com

 

 

 

2.소개글 (미디엄)

미디엄에 올러와 있는 Surya-OCR에 대한 소개 글입니다. 

 

Blazingly Fast Surya-OCR

In numerous enterprise applications, Optical Character Recognition (OCR) serves as a fundamental technology. In this article, we will deep dive into the Surya-OCR which, a solution that has garnered…

medium.com

 

 

3.소개영상

로컬에서 Surya를 설치해서 돌려보는 과정을 설명하는 영상입니다.