(SteerLM) Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF
AI Paper Review
기존의 RLHF은 복잡한 훈련과정과 단일 차원의 피드백에 의존한다는 문제가 있었습니다. 그래서 저자는 SteerLM을 소개합니다. 이는 SFT를 활용하여 사용자에게 명시적이고 다차원적인 속성을 설정할 수 있도록 지원하고, AI 가 생성하는 응답을 사용작가 조건에 따라 조정(Steer) 가능하게 합니다. 이 방법은 RLHF 보다 훈련이 간단하면서도 고품질 응답을 생성할 수 있습니다. 실험결과 오픈 데이터셋으로 훈련된...
[Read More]