Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 시간적 일관성
- 확산 모델
- OpenAI
- 일론 머스크
- ubuntu
- 우분투
- tts
- 딥러닝
- ControlNet
- 티스토리챌린지
- 멀티모달
- 트랜스포머
- AI
- AI 기술
- 오픈AI
- LORA
- 아두이노
- 뉴럴링크
- PYTHON
- 가상환경
- 휴머노이드 로봇
- ChatGPT
- 서보모터
- 인공지능
- 생성형 AI
- 메타
- TRANSFORMER
- LLM
- 딥마인드
- 오블완
Archives
- Today
- Total
AI 탐구노트
ScreenAI : 사용자 UI와 인포그래픽을 이해하는 비전 언어 모델 본문
사용자 인터페이스(UI)와 인포그래픽을 이해하는데 특화된 비전 언어 모델
사람들이 기계(주로 컴퓨터)와 상호작용을 할 때 필요한 것이 UI이고 정보를 시각적으로 쉽고 효율적으로 파악하기 위해 사용하는 것이 인포그래픽이죠. ScreenAI는 구글에서 발표한 사용자 인터페이스(UI)와 인포그래픽을 이해하는데 특화된 비전 언어 모델입니다. 이를 이용하면 사용자가 웹브라우저를 통해 접근한 사이트 내용이나 스마트폰 화면 등 우리가 보는 화면의 내용을 AI가 이해할 수 있게 되고 이를 통해 사용자 경험을 개선하는데 활용할 수 있게 됩니다.
ScreenAI는 이전 모델인 PaLI를 기반으로 개선됐으며 유연한 패치 전략(이미지를 부분으로 나눠 처리하는)을 적용해 다양한 종횡비의 이미지에서 작동하도록 했습니다. 또 사람이 레이블을 지정한 스크린샷 및 인포그래픽 데이터 세트로 훈련했고, 다른 LLM이 생성한 합성 데이터를 훈련할 수도 있다고 합니다. 화면을 대형 언어 모델에 설명하고, 자동 질문 응답(QA), UI 탐색 및 요약 훈련 데이터셋을 자동으로 생성하는 능력도 있다네요. 5B 매개변수 수준의 비교적 작은 모델임에도 불구하고 다른 모델들보다 우수한 성능을 보여준다고 합니다.
'AI 기술' 카테고리의 다른 글
MagicTime : 타임랩스 영상을 생성하는 모델 (0) | 2024.08.22 |
---|---|
Phi-3 : 성능 좋은 경량 언어모델 (0) | 2024.08.22 |
Surya : 90여개 다국어를 지원하는 OCR 툴킷 (0) | 2024.08.21 |
OpenELM : 애플이 공개한 경량 언어 모델 (0) | 2024.08.21 |
FlowSAM : 영상에서 물체를 분할하는 모델 (0) | 2024.08.21 |