(Pix2Struct) Screenshot Parsing as Pretraining for Visual Language Understanding

AI Paper Review

우리 주변에는 시각적으로 표현된 언어가 매우 많습니다. 예를 들어, 다이어그램이 포함된 교과서, 이미지와 표가 있는 웹페이지, 버튼과 폼이 있는 모바일 앱 등이 이에 해당합니다. 하지만 이처럼 다양한 형태의 데이터 때문에, 기존 연구는 보통 특정 도메인에 맞춘 방법론에 의존했으며, 데이터, 모델 구조, 학습 목표를 다른 작업에서 공유하기 어렵다는 한계가 있었습니다. [Read More]

(MATCHA) Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering

AI Paper Review

위 논문은 시각적 언어 데이터(예: 그래프, 차트, 인포그래픽)가 인간 사회에서 널리 사용되지만, 최신 비전-언어 모델이 이러한 데이터에서 잘 작동하지 못한다는 문제를 다룹니다. 이를 해결하기 위해 MATCHA (Math reasoning and Chart derendering pretraining)라는 새로운 접근 방식을 제안합니다. 논문의 주요 내용은 다음과 같습니다: [Read More]