ScreenAI : 사용자 UI와 인포그래픽을 이해하는 비전 언어 모델

Notice

Recent Posts

Recent Comments

Link

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

AI 탐구노트

ScreenAI : 사용자 UI와 인포그래픽을 이해하는 비전 언어 모델 본문

AI 기술

ScreenAI : 사용자 UI와 인포그래픽을 이해하는 비전 언어 모델

42morrow 2024. 8. 22. 22:02

사용자 인터페이스(UI)와 인포그래픽을 이해하는데 특화된 비전 언어 모델

사람들이 기계(주로 컴퓨터)와 상호작용을 할 때 필요한 것이 UI이고 정보를 시각적으로 쉽고 효율적으로 파악하기 위해 사용하는 것이 인포그래픽이죠. ScreenAI는 구글에서 발표한 사용자 인터페이스(UI)와 인포그래픽을 이해하는데 특화된 비전 언어 모델입니다. 이를 이용하면 사용자가 웹브라우저를 통해 접근한 사이트 내용이나 스마트폰 화면 등 우리가 보는 화면의 내용을 AI가 이해할 수 있게 되고 이를 통해 사용자 경험을 개선하는데 활용할 수 있게 됩니다.

ScreenAI는 이전 모델인 PaLI를 기반으로 개선됐으며 유연한 패치 전략(이미지를 부분으로 나눠 처리하는)을 적용해 다양한 종횡비의 이미지에서 작동하도록 했습니다. 또 사람이 레이블을 지정한 스크린샷 및 인포그래픽 데이터 세트로 훈련했고, 다른 LLM이 생성한 합성 데이터를 훈련할 수도 있다고 합니다. 화면을 대형 언어 모델에 설명하고, 자동 질문 응답(QA), UI 탐색 및 요약 훈련 데이터셋을 자동으로 생성하는 능력도 있다네요. 5B 매개변수 수준의 비교적 작은 모델임에도 불구하고 다른 모델들보다 우수한 성능을 보여준다고 합니다.

참고) 논문, 소개글

'AI 기술' 카테고리의 다른 글

MagicTime : 타임랩스 영상을 생성하는 모델 (0)	2024.08.22
Phi-3 : 성능 좋은 경량 언어모델 (0)	2024.08.22
Surya : 90여개 다국어를 지원하는 OCR 툴킷 (0)	2024.08.21
OpenELM : 애플이 공개한 경량 언어 모델 (0)	2024.08.21
FlowSAM : 영상에서 물체를 분할하는 모델 (0)	2024.08.21

'AI 기술' Related Articles

AI 탐구노트

ScreenAI : 사용자 UI와 인포그래픽을 이해하는 비전 언어 모델 본문

ScreenAI : 사용자 UI와 인포그래픽을 이해하는 비전 언어 모델

'AI 기술' 카테고리의 다른 글

티스토리툴바