이 survey는 LLM, ViTs, Diffusion Model 및 LLM 기반다중 모델과 같은 대형 기초 모델들이 기계학습 전 과정에서 혁신을 이루고 있음을 다룹니다. 이러한 모델이 제공하는 다재다능성과 성능의 발전은 하드웨어 자원 측면에서 상당한 비용을 초래합니다. 이러한 대형 모델의 성장과 환경적으로 지속 가능한 방안을 지원하기 위해, 자원 효율적인 전략 개발에 상당한 초점이 맞춰졌습니다....
[Read More]
최근 LLM의 인기로 인해 이를 비전 영역으로 확장하려는 시도가 여러차례 있었습니다. 비전-언어 모델 (VLM)은 시각 정보를 텍스트와 결합하여 다양한 프로그램에서 사용될 수 있습니다.
이 논문은 VLM의 기본 개념, 훈련 방법, 평가 방법을 소개하고, 특히 이미지에서 언어로의 매핑을 중십으로 설명합니다.
[Read More]
LVLM(Large Vision-Language Model)은 시각 언어 이해에서 다양한 다운스트림 작업의 성능을 향상시켰습니다. 대부분의 기존 접근 방식은 이미지와 비디오를 별도의 feature 공간으로 인코딩한 다음 대규모 언어 모델에 대한 입력으로 공급합니다. 그러나 이미지 및 비디오에 대한 통합 토큰화가 부족하기 때문에, 즉 프로젝션 전 정렬 불량으로 인해 대규모 언어 모델(LLM)이 여러 불량 프로젝션 레이어에서...
[Read More]
대규모 언어 모델(LLM)은 자연어 처리(NLP) 분야에서 강력한 도구로 부상했으며 최근에는 추천 시스템(RS) 영역에서 큰 주목을 받고 있습니다. 자기 지도 학습을 사용하여 방대한 양의 데이터에 대해 훈련된 이러한 모델은 보편적 표현을 학습하는 데 놀라운 성공을 거두었으며 미세 조정 및 프롬프트 튜닝 등과 같은 몇 가지 효과적인 전송 기술을 통해 추천 시스템의...
[Read More]