일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 확산 모델
- 강화 학습
- 오픈AI
- 메타
- 다국어 지원
- 티스토리챌린지
- tts
- 인공지능
- 오픈소스
- LORA
- 일론 머스크
- LLM
- OpenAI
- ChatGPT
- AI
- 코딩
- XAI
- ai 챗봇
- 트랜스포머
- 우분투
- 시간적 일관성
- 딥러닝
- 휴머노이드 로봇
- 생성형AI
- ubuntu
- PYTHON
- 오블완
- 3d 재구성
- AI 기술
- OpenCV
- Today
- Total
목록OCR (3)
AI 탐구노트

MarkItDown은 Microsoft에서 개발한 오픈소스 Python 라이브러리 및 CLI(커맨드 라인 인터페이스) 도구로, 다양한 파일 형식을 Markdown 형식으로 변환하는 데 사용됩니다.이 도구는 PDF, Word, Excel, PowerPoint, HTML, 이미지, 오디오 등 다양한 파일 형식을 처리하여 텍스트 분석, LLM 학습, 또는 인덱싱과 같은 작업에 적합한 Markdown 출력을 생성합니다. 2024년 말 공개 이후 단 2주 만에 GitHub에서 25,000개 이상의 스타를 획득하며 큰 인기를 끌었습니다. MIT 라이선스 하에 배포되며, 확장 가능한 플러그인 아키텍처를 지원합니다. 게다가 MIT 라이선스를 따르고 있어 자유로운 사용, 수정이 가능합니다. 주요 특징 MarkItDo..

문서를 디지털 데이터로 변환하는 것은 생각보다 어려운 작업입니다. 특히 PDF 문서는 인쇄에 최적화된 형식이라 내부 내용을 쉽게 분석하기 어렵습니다. 문서에는 텍스트뿐만 아니라 표, 수식, 차트, 코드 같은 다양한 요소가 포함되어 있어 단순한 OCR(광학 문자 인식) 기술만으로 정확한 변환이 어렵습니다. 기존에는 두 가지 방식이 많이 사용되었습니다. 첫 번째는 각 요소를 따로 처리하는 시스템입니다. 예를 들어, OCR 기술로 텍스트를 인식한 후, 별도의 모델이 문서 레이아웃을 분석하고, 또 다른 모델이 표나 수식을 변환하는 방식입니다. 이렇게 하면 비교적 정확한 결과를 얻을 수 있지만, 여러 모델을 조합해야 해서 시스템이 복잡해지고 처리 속도가 느려지는 단점이 있습니다. 두 번째는 대형 AI 모델을 이용..

디지털 문서의 핵심 정보는 PDF, Word, DjVu 등 다양한 포맷에 담겨 있습니다. 하지만 이러한 문서들은 본래의 레이아웃을 유지하는 데 초점이 맞춰져 있어 텍스트를 쉽게 추출하고 가공하는 것이 어렵습니다. 특히, PDF 파일은 단순한 텍스트 파일이 아니라 단어와 글자를 개별적인 그래픽 요소로 저장하며, 문서 내 논리적 순서를 따르지 않는 경우가 많습니다. 이러한 문제를 해결하기 위해 기존에는 광학 문자 인식(OCR, Optical Character Recognition) 기술이 사용되었습니다. 1950년대부터 연구되어 온 OCR 기술은 2006년 구글의 Tesseract 같은 오픈소스 툴을 통해 많은 발전을 이루었지만, 여전히 문서 내의 논리적 순서를 완전히 보존하기 어려운 문제가 남아 있었습니다..