(Reuse, Don’t Retrain) A Recipe for Continued Pretraining of Language Models
AI Paper Review
대규모 언어 모델은 매개변수의 수와 사전 학습 데이터 세트 크기가 계속 증가하고 있습니다. 이러한 증가로 인해 학습 비용이 매우 커져, 리소스가 풍부한 팀이 아니면 감당하기 어렵습니다. 따라서, 모델을 처음부터 다시 학습하지 않고, 이미 학습된 모델을 추가적으로 학습하여 성능을 개선하는 방법이 중요합니다. 언어 모델을 효율적으로 재사용하기 위한 데이터 분포 설계(data distribution...
[Read More]