Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 오블완
- 이미지 편집
- javascript
- ubuntu
- 메타
- LORA
- 멀티모달
- PYTHON
- TRANSFORMER
- ControlNet
- 티스토리챌린지
- 확산 모델
- AI 기술
- 딥마인드
- 뉴럴링크
- 트랜스포머
- OpenAI
- 시간적 일관성
- 오픈AI
- ChatGPT
- tts
- 우분투
- 서보모터
- AI
- 아두이노
- 일론 머스크
- 가상환경
- LLM
- 생성형 AI
- 인공지능
Archives
- Today
- Total
목록긴 맥락 디코더 (1)
AI 탐구노트
GOT : 다양한 문자 인식 작업을 지원하는 모델
다양한 문자인식(OCR) 작업을 통합적으로 처리하는 모델 GOT(General OCR Theory)는 다양한 문자인식(OCR) 작업을 통합적으로 처리하는 고성능 모델입니다. 기존의 OCR 시스템은 다양한 모듈을 조합한 복잡한 구조로 구성되어 있어 유지 보수가 어렵고, 특정 작업에만 최적화되어 범용성이 떨어지고 고밀도 텍스트나 다양한 언어를 처리하는 데 한계가 있었습니다. GOT의 구조는 OCR 작업을 단순화하고 범용성을 극대화하려는 시도로 기존 방식의 복잡성을 해결하는 데 중점을 두고 있습니다. 고압축 인코더와 긴 맥락을 처리하는 디코더로 구성된 엔드 투 엔드 OCR-2.0 모델을 통해 다양한 입력 이미지 형식과 고해상도 문서 및 수식, 도표, 음악 악보 등의 복잡한 문자들을 처리할 수 있고 상호작용..
AI 기술
2024. 9. 13. 10:08