일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 가상환경
- 메타
- OpenAI
- 시간적 일관성
- 오픈AI
- TRANSFORMER
- ubuntu
- PYTHON
- ControlNet
- AI 기술
- 우분투
- LORA
- tts
- 생성형 AI
- 서보모터
- 확산 모델
- 오블완
- 이미지 편집
- 트랜스포머
- 딥마인드
- javascript
- 멀티모달
- LLM
- 아두이노
- 일론 머스크
- 인공지능
- 티스토리챌린지
- 뉴럴링크
- ChatGPT
- AI
- Today
- Total
AI 탐구노트
GOT : 다양한 문자 인식 작업을 지원하는 모델 본문
다양한 문자인식(OCR) 작업을 통합적으로 처리하는 모델
GOT(General OCR Theory)는 다양한 문자인식(OCR) 작업을 통합적으로 처리하는 고성능 모델입니다.
기존의 OCR 시스템은 다양한 모듈을 조합한 복잡한 구조로 구성되어 있어 유지 보수가 어렵고, 특정 작업에만 최적화되어 범용성이 떨어지고 고밀도 텍스트나 다양한 언어를 처리하는 데 한계가 있었습니다.
GOT의 구조는 OCR 작업을 단순화하고 범용성을 극대화하려는 시도로 기존 방식의 복잡성을 해결하는 데 중점을 두고 있습니다. 고압축 인코더와 긴 맥락을 처리하는 디코더로 구성된 엔드 투 엔드 OCR-2.0 모델을 통해 다양한 입력 이미지 형식과 고해상도 문서 및 수식, 도표, 음악 악보 등의 복잡한 문자들을 처리할 수 있고 상호작용을 거쳐 특정 영역을 지정해 인식하는 기능도 지원합니다.
요약해 보면 GOT는 다음과 같은 특징을 가지고 있습니다.
- 범용성: 수학식, 분자 구조, 도표, 악보 등 다양한 문자를 처리할 수 있음
- 효율성: 고압축 인코더로 입력 이미지를 압축하여 디코더에서 긴 문맥을 처리할 수 있음
- 상호작용 기능: 좌표나 색상으로 특정 영역을 지정하여 해당 부분만 인식하는 기능 제공
- 다중 페이지 처리: PDF 같은 다중 페이지 문서의 연속적인 OCR 처리가 가능
- 다이내믹 해상도: 매우 큰 이미지에 대해 동적 해상도를 지원하여 고해상도 이미지도 효과적으로 처리
GOT의 학습은 세 단계로 이뤄집니다.
- Stage 1 (Pre-training) : 경량 디코더(OPT-125M)를 사용해 인코더가 이미지 내 텍스트, 문서에서의 텍스틀르 인식하는 것을 학습토록 합니다.
- Stage 2 (Joint-training) : 사전 학습된 인코더와 더 큰 디코더(Qwen-0.5B)를 결합해 다목적 OCR 데이터를 학습해 악보, 수학식, 기하학 도형 등의 다양한 문자를 인식할 수 있도록 합니다.
- Stage 3 (Post-training) : 디코더만 미세 조정해 지역별 인식, 동적 해상도 처리, 다중 페이지 처리와 같은 추가적 기능을 학습하돍 합니다.
GOT은 다양한 종류의 문서나 이미지를 인식하고, 사용자 지정에 따라 필요한 부분만 인식할 수 있으며, 결과를 구조화된 형식으로 출력할 수 있습니다. 위의 그림에서 보듯, 입력 측면에서는 텍스트가 포함된 이미지, PDF 등의 문서 뿐만 아니라 악보, 수학/분자식, 도표, 기하학적 도형과 같은 특수 문자를 인식할 수 있고, 출력 측면에서는 수학식이나 표처럼 구조화된 텍스트를 LaTeX 또는 Markdown 형식으로, 또는 TikZ(기하학 도형 표현)나 SMILES(분자식 표현)과 같은 특수 포맷을 지원합니다.
'AI 기술' 카테고리의 다른 글
DrawingSpinUp : 스케치 to 3D 애니메이션 생성 시스템 (1) | 2024.09.17 |
---|---|
GameGen-O : 오픈월드 비디오 게임 생성 모델 (1) | 2024.09.16 |
Reshot AI : AI 기반의 안면 3D 사진 편집 도구 (0) | 2024.09.11 |
YOLOv9 : 새로운 Yolo 시리즈 객체 탐지 모델 (0) | 2024.09.10 |
LitServe : FastAPI보다 훨씬 빠른 모델 서빙엔진 (0) | 2024.09.09 |