A Survey on Large Language Models for Recommendation

대규모 언어 모델(LLM)은 자연어 처리(NLP) 분야에서 강력한 도구로 부상했으며 최근에는 추천 시스템(RS) 영역에서 큰 주목을 받고 있습니다. 자기 지도 학습을 사용하여 방대한 양의 데이터에 대해 훈련된 이러한 모델은 보편적 표현을 학습하는 데 놀라운 성공을 거두었으며 미세 조정 및 프롬프트 튜닝 등과 같은 몇 가지 효과적인 전송 기술을 통해 추천 시스템의 다양한 측면을 향상시킬 수 있는 잠재력을 가지고 있습니다. 추천 품질을 향상시키기 위해 언어 모델의 힘을 활용하는 데 있어 중요한 측면은 텍스트 기능의 고품질 표현과 외부 지식의 광범위한 적용 범위를 활용하여 항목과 사용자 간의 상관 관계를 설정하는 것입니다. 기존 LLM 기반 추천 시스템에 대한 포괄적인 이해를 제공하기 위해, 이 survey 에서는 이러한 모델을 각각 Discriminative LLM for Recommendation (DLLM4Rec)과 Generative LLM for Recommendation (GLLM4Rec)의 두 가지 주요 패러다임으로 분류하는 분류법을 제시하며, 후자는 처음으로 체계적으로 분류되었습니다. 또한 각 패러다임 내에서 기존 LLM 기반 추천 시스템을 체계적으로 검토하고 분석하여 방법론, 기법 및 성과에 대한 통찰력을 제공합니다. 또한 연구자와 실무자에게 영감을 제공하기 위해 주요 과제와 몇 가지 가치 있는 결과를 식별합니다. 또한 추천을 위해 LLM에 대한 관련 논문을 색인화하기 위해 GitHub 리포지토리를 만들었습니다

Paper Link

Git Hub Link

Introduction

기존의 추천 시스템과 달리 LLM 기반 모델은 컨텍스트 정보를 캡처하고 사용자 쿼리, 항목 설명 및 기타 텍스트 데이터를 보다 효과적으로 이해하는 데 탁월합니다. 컨텍스트를 이해함으로써 LLM 기반 RS는 권장 사항의 정확성과 관련성을 향상시켜 사용자 만족도를 높일 수 있습니다. LLM은 제로/퓨샷 추천 기능을 통해 추천 시스템에 새로운 가능성을 제공합니다. 이러한 모델은 사실에 입각한 정보, 도메인 전문 지식 및 상식적인 추론을 통해 광범위한 사전 교육으로 인해 보이지 않던 사용자에게도 일반화할 수 있으므로 특정 항목이나 사용자에 대한 사전 노출 없이도 합리적인 추천을 제공할 수 있습니다.

Modeling Paradigms and Taxonomy

모든 대규모 언어 모델의 기본 프레임워크는 GPT, PaLM, LLaMA 등과 같은 여러 트랜스포머 블록으로 구성됩니다. 이 아키텍처의 입력은 일반적으로 토큰 임베딩 또는 위치 임베딩 등으로 구성되는 반면, 예상 출력 임베딩 또는 토큰은 출력 모듈에서 얻을 수 있습니다. 여기서 입력 및 출력 데이터 형식은 모두 텍스트 시퀀스입니다.

기존 작업은 크게 다음 세 가지 범주로 나눌 수 있습니다:

(1) LLM 임베딩 + RS: 이 모델링 패러다임은 언어 모델을 기능 추출기로 간주하며, 이는 항목과 사용자의 프로필을 LLM에 공급하고 해당 임베딩을 출력합니다. 기존 RS 모델은 다양한 추천 작업에 지식 인식 임베딩을 활용할 수 있습니다.

(2) LLM 토큰 + RS: 이전 방법과 마찬가지로 이 방법은 입력된 항목과 사용자의 프로필을 기반으로 토큰을 생성합니다. 생성된 토큰은 시맨틱 마이닝(중요한 정보나 패턴을 식별하고 의미를 분석)을 통해 잠재적인 선호도를 포착하며, 이는 추천 시스템의 의사 결정 프로세스에 통합될 수 있습니다.

(3) RS로서의 LLM: (1) 및 (2)와 달리 이 패러다임은 사전 학습된 LLM을 강력한 추천 시스템으로 직접 이전하는 것을 목표로 합니다. 입력 순서는 일반적으로 프로필 설명, 동작 프롬프트 및 작업 지침으로 구성됩니다. 출력 시퀀스는 합리적인 권장 결과를 제공할 것으로 예상됩니다. 실제 응용 프로그램에서 언어 모델의 선택은 추천 시스템의 모델링 패러다임 설계에 큰 영향을 미칩니다.

그림 2에서 볼 수 있듯이 본 논문에서는 각각 차별적 LLM과 생성적 LLM의 두 가지 주요 범주로 분류합니다. 일반적으로 판별 언어 모델은 패러다임 (1)에 포함시키는 데 적합하며, 생성 언어 모델의 응답 생성 기능은 패러다임 (2) 또는 (3)을 추가로 지원합니다.

Discriminative LLMs for Recommendation

이는 (1)의 작업에 해당하는 모델이며 LLM을 통해 추천에 적합한 임베딩을 추출하는데 목적이 있습니다. 이 모델들은 주로 사용자가 각 item을 like/dislike 할 지 분류 작업에 사용됩니다. 사용자의 요구나 아이템 설명과 같은 텍스트 데이터를 분석하여, 사용자에게 가장 관련성이 높은 아이템을 찾아 추천하는 데 초점을 맞춥니다. 실제로, 이 모델은 주로 BERT 시리즈의 모델을 참조합니다. 대부분의 기존 작업은 미세 조정을 통해 BERT와 같은 사전 학습된 모델의 표현을 도메인별 데이터와 정렬합니다. 또한 일부 연구에서는 프롬프트 튜닝과 같은 교육 전략을 탐구합니다. 대표적인 접근 방식과 일반적으로 사용되는 데이터 세트는 표 1 및 표 2에 나열되어 있습니다.

1. Fine-tuning

사전 학습된 언어 모델을 finetuning 하는 것은 추천 시스템을 포함한 다양한 자연어 처리(NLP) 작업에서 상당한 주목을 받고 있는 보편적인 기술입니다. 대규모 텍스트 데이터에서 이미 풍부한 언어 표현을 학습한 언어 모델을 가져와서 작업별 데이터에 대해 추가로 학습하여 특정 작업 또는 도메인에 맞게 조정하는 것입니다. 학습된 매개 변수를 사용하여 미리 학습된 언어 모델을 초기화한 다음, 권장 사항별 데이터 세트에서 학습하는 작업이 포함됩니다. 이 데이터 세트에는 일반적으로 User-item interactions, textual description of items, 사용자 프로필 및 기타 관련 컨텍스트 정보가 포함됩니다. finetuning 중에 모델의 매개변수는 작업별 데이터를 기반으로 업데이트되어 권장 작업에 맞게 조정되고 전문화될 수 있습니다.

U-BERT (2021), UserBERT (2021), BERT4Rec (2019), RESETBERT4Rec (2022), UniSRec (2022), Tiny-NewsRec (2022), PREC (2022), MoRec (2023), OPT (2022)

요약하자면, BERT finetuning을 추천 시스템에 통합하면 강력한 외부 지식과 개인화된 사용자 선호도가 융합되며, 이는 주로 추천 정확도를 높이는 것을 목표로 하는 동시에 제한된 과거 데이터를 가진 새로운 항목에 대한 약간의 콜드 스타트 처리 기능을 확보하는 것을 목표로 합니다.

2. Prompt Tuning

예를 들어 Penha and Hauff (2020)은 BERT의 masked language modeling (MLM) head를 cloze-style prompts (누락된 단어나 문장 부분을 모델이 채우도록 하는 것)를 사용해서 item의 장르에 대한 이해를 시킬 수 있음을 발견하였습니다. 또한 utilized 한 Next Sentence Prediction (NSP) head를 통해서 similarity of representation이 강화되어 query-docmuent 추천의 관련성 비교를 더 강화할 수 있었습니다.

Prompt4NR(2023)은 뉴스 추천을 위한 프롬프트 학습 패더다음 적용을 개척하였습니다. 후보 뉴스에 대한 사용자 클릭을 예측하는 것을 목표로하는 cloze-style 프롬프트로 작업을 재정의하였습니다. 실험에 따르면 추천 시스템의 성능은 다중 프롬프트 앙상블링의 활용을 통해 눈에 띄게 향상되어 개별 및 연속 템플릿에서 단일 프롬프트로 달성한 결과를 능가합니다. 이는 정보에 입각한 결정을 내리기 위해 여러 프롬프트를 결합하는 프롬프트 앙상블의 효과를 강조합니다.

Generative LLMs for Recommendation

이는 (2), (3)의 작업에 해당하는 모델이며, 이 모델들은 사용자의 행동이나 선호도를 기반으로 새로운 콘텐츠나 아이템을 생성할 수 있습니다. 예를 들어 사용자가 좋아할 만한 새로운 음악 플레이 리스트나 기사를 생성하는 것이 가능합니다. 판별 모델에 비해 생성 모델은 더 나은 자연어 생성 기능을 가지고 있습니다. LLM이 학습한 표현을 추천 도메인에 맞추는 대부분의 차별적 모델 기반 접근 방식과 달리, 대부분의 생성적 모델 기반 작업은 추천 작업을 자연어 작업으로 변환한 다음 컨텍스트 내 학습, 프롬프트 튜닝 및 명령어 튜닝과 같은 기술을 적용하여 LLM을 조정하여 추천 결과를 직접 생성합니다. 또한 ChatGPT가 보여준 인상적인 기능으로 인해 이러한 유형의 작업이 최근 주목을 받고 있습니다.

1. Non-tuning Paradigm

LLM은 보이지 않는 많은 작업에서 강력한 제로/퓨샷 능력을 보여주었습니다. 따라서 최근 일부 작업에서는 LLM이 이미 추천 능력을 가지고 있다고 가정하고, 특정 프롬프트를 도입하여 이러한 능력을 발동시키려고 시도하고 있습니다. 그들은 최근 Instruction and In-Context Learning의 관행을 사용하여 모델 매개변수를 조정하지 않고 LLM을 권장 작업에 채택합니다. 프롬프트에 데모 예가 포함되는지 여부에 따라 이 패러다임의 연구는 주로 prompting과 in-context learning의 두 가지 범주에 속합니다.

1-1 Prompting

이 작업 카테고리는 LLM이 추천 작업을 더 잘 이해하고 해결할 수 있도록 보다 적합한 지침과 프롬프트를 설계하는 것을 목표로 합니다. Liu et al. (2023a)는 평점 예측, 순차 추천, 직접 추천, 설명 생성, 리뷰 요약 등 5가지 일반적인 추천 작업에 대한 ChatGPT의 성능을 체계적으로 평가했습니다. 그들은 다음과 같이 구성된 일반적인 추천 프롬프트 구성 프레임워크를 제안했습니다:

(1) 작업 설명, 추천 작업을 자연어 처리 작업에 적용

(2) LLM이 사용자 선호도와 요구 사항을 포착하는 데 도움이 되도록 사용자-항목 상호 작용을 통합하는 동작 주입

(3) 출력 형식을 제한하고 권장 결과를 보다 이해하기 쉽고 평가할 수 있도록 하는 형식 표시

마찬가지로 Dai et al. (2023)은 포인트별, 쌍별, 목록별 순위를 포함한 세 가지 일반적인 정보 검색 작업에 대한 ChatGPT의 추천 능력에 대한 실증 분석을 수행했습니다. 그들은 ChatGPT의 도메인 적응 능력을 향상시키기 위해 다양한 종류의 작업에 대해 다양한 프롬프트를 제안하고 프롬프트 시작 부분에 역할 지침(예: 당신은 지금 뉴스 추천 시스템입니다.)을 도입했습니다. 다양한 프롬프트 입력의 향상을 평가하기 위해 Sanner et al. (2023)은 실험에서 Items only, Language only(사용자의 기본 설정에 대한 설명) 및 결합된 Language+Items의 경우에 대해 세 가지 프롬프트 템플릿을 설계했습니다. 언어 모델의 성능을 분석한 후, 그들은 제로샷(zero-shot) 및 퓨샷(few-shot) 전략이 (항목 선호도를 고려하지 않고) 언어 기반 선호도만을 기반으로 추천을 하는 데 매우 효과적이라는 것을 발견했습니다. 실제로 이러한 전략은 특히 콜드 스타트에 가까운 시나리오에서 항목 기반 협업 필터링 방법과 비교할 때 매우 경쟁력이 있는 것으로 입증되었습니다.