일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 티스토리챌린지
- 생성형 AI
- 인공지능
- AI 기술
- 멀티모달
- 아두이노
- 가상환경
- ControlNet
- 휴머노이드 로봇
- 일론 머스크
- AI
- 딥마인드
- 트랜스포머
- 우분투
- ChatGPT
- ubuntu
- LORA
- 메타
- 확산 모델
- 서보모터
- OpenAI
- 뉴럴링크
- tts
- PYTHON
- 오블완
- 시간적 일관성
- 딥러닝
- LLM
- TRANSFORMER
- 오픈AI
- Today
- Total
목록2024/08/21 (3)
AI 탐구노트
Surya 소개 Surya는 문서 OCR 툴킷으로 90 여개의 언어를 지원하며, 라인 단위의 텍스트 감지와 문서의 레이아웃 분석 (예: 테이블, 이미지, 헤더 등등의 감지), 읽는 순서의 감지 등의 기능을 제공합니다. surya-ocr이라는 python 패키지 형태로 제공되어 손쉽게 설치해서 사용해 볼 수 있습니다. 특징으로는 문서에 특화되어 있어서 일반 이미지에서는 제대로 동작하지 않을 수 있고, 인쇄체에서 잘 되며, 포함되어 있는 광고를 걸러내도록 학습되었다고 합니다. 아래 사진에 나온 뉴욕타임지 신문의 예를 보면 각 기사들의 타이틀, 서브 타이틀, 단락 구분 그리고 레이아웃 상에서 읽어 나가는 순서도 잘 인식하고 있다는 것을 볼 수 있습니다. 'Surya'는 힌두교 태양신의 이름이라고 합니다.국내..
Apple에서 발표한 SLM(Small Language Model) 모델 OpenELM(Open Efficient Language Model)은 Apple에서 발표한 SLM(Small Language Model) 모델입니다. 그동안 구글, 메타 등에 비해 애플에서는 AI 관련한 기술 소개가 그리 많지 않았었습니다. 하지만 앞으로는 이름에 걸맞는 저력을 하나씩 공개해 나갈 것으로 예상됩니다. 이번에 발표된 OpenELM은 270M, 450M, 1.08B, 3.04B 큭기의 매개변수를 가지는 비교적 작은 크기의 모델로, 기본모델과 Instruct 모델이 포함됩니다. 계층 별 스케일링 전략을 채택하여 효율적인 매개변수 할당을 통해 자연어 이해 및 생성에서의 정확도를 향상시켰다고 합니다. 트랜스포머 기본 구조와..
FlowSAM은 영상에서 움직이는 물체를 분할하는 모델 FlowSAM은 SAM 모듈과 Optical Flow를 사용하여 영상에서 움직이는 물체를 정확하게 분할하는 모델입니다. SAM(Self-Attention Mask) 모듈은 이미지에서 움직이는 물체와 배경을 구별하는데 사용되는 Attention 메커니즘으로 이미지의 특징을 효과적으로 학습하고 모델이 움직이는 물체에 집중하도록 하여 결과적으로 정확도를 향상시키도록 합니다. Optical Flow는 프레임 간 픽셀 이동을 추적해 움직임을 감지하는데 사용되는 기술로 움직임, 여기서는 특히 저속에서의 객체를 분할하는데 도움을 줍니다. 일반적으로 이미지에서 객체 분할을 하는 것에 비해 동영상에 적용되는 것이다보니, 감지 개체의 동일성을 유지하는 부분이 중요한데..