AI 탐구노트

ScreenAI : 사용자 UI와 인포그래픽을 이해하는 비전 언어 모델 본문

AI 기술

ScreenAI : 사용자 UI와 인포그래픽을 이해하는 비전 언어 모델

42morrow 2024. 8. 22. 22:02
사용자 인터페이스(UI)와 인포그래픽을 이해하는데 특화된 비전 언어 모델

 

 

사람들이 기계(주로 컴퓨터)와 상호작용을 할 때 필요한 것이 UI이고 정보를 시각적으로 쉽고 효율적으로 파악하기 위해 사용하는 것이 인포그래픽이죠. ScreenAI는 구글에서 발표한 사용자 인터페이스(UI)와 인포그래픽을 이해하는데 특화된 비전 언어 모델입니다. 이를 이용하면 사용자가 웹브라우저를 통해 접근한 사이트 내용이나 스마트폰 화면 등 우리가 보는 화면의 내용을 AI가 이해할 수 있게 되고 이를 통해 사용자 경험을 개선하는데 활용할 수 있게 됩니다.

 

ScreenAI는 이전 모델인 PaLI를 기반으로 개선됐으며 유연한 패치 전략(이미지를 부분으로 나눠 처리하는)을 적용해 다양한 종횡비의 이미지에서 작동하도록 했습니다. 또 사람이 레이블을 지정한 스크린샷 및 인포그래픽 데이터 세트로 훈련했고, 다른 LLM이 생성한 합성 데이터를 훈련할 수도 있다고 합니다. 화면을 대형 언어 모델에 설명하고, 자동 질문 응답(QA), UI 탐색 및 요약 훈련 데이터셋을 자동으로 생성하는 능력도 있다네요. 5B 매개변수 수준의 비교적 작은 모델임에도 불구하고 다른 모델들보다 우수한 성능을 보여준다고 합니다.

 

사진: 모델 아키텍처

 

Task 생성 파이프라인

 

 

 

참고) 논문소개글