(Reuse, Don’t Retrain) A Recipe for Continued Pretraining of Language Models

AI Paper Review

대규모 언어 모델은 매개변수의 수와 사전 학습 데이터 세트 크기가 계속 증가하고 있습니다. 이러한 증가로 인해 학습 비용이 매우 커져, 리소스가 풍부한 팀이 아니면 감당하기 어렵습니다. 따라서, 모델을 처음부터 다시 학습하지 않고, 이미 학습된 모델을 추가적으로 학습하여 성능을 개선하는 방법이 중요합니다. 언어 모델을 효율적으로 재사용하기 위한 데이터 분포 설계(data distribution... [Read More]

CONTINUAL PRE-TRAINING OF LANGUAGE MODELS

AI Paper Review

이 논문은 LM의 지속적인 도메인 적응 사전학습(continual domain-adaptive pre-training, DAP-training)에 관한 논문입니다. 기존 모델의 성능을 도메인에 맞게 향상시키는 Domain Adaptive Pretraining(DAPT)의 효과는 이미 입증되어 왔습니다. 기존 DAPT는 특정 도메인의 코퍼스를 사용하여 이미 사전학습된 언어 모델을 도메인에 맞게 추가학습하면, 해당 도메인에서 다운스트립 작업 성능이 개선되었습니다. 현실에서는 하나의 도메인에만 국한되지 않고 여러... [Read More]

(ChipNeMo) Domain-Adapted LLMs for Chip DesignBefore Projection

AI Paper Review

ChipNeMo는 LLM을 chip design 산업에 적용하기 위한 탐구를 목표로 합니다. 상용 또는 오픈 소스 llm을 직접 배포하는 대신, 다음과 같은 domain adaption 테크닉을 적용하였습니다. domain-adaptive tokenization domain-adaptive continued pretraining model alignment with domain-specific instruction domain-adapted retrieval models [Read More]

(Large Language Models) A Survey Models

AI Survey

이 논문에서 저자는 가장 유명한 llm family(GPT, LLaMA, PaLM)에 대해 리뷰하고, 그들의 특징, 기여, 그리고 한계에 대해서 논의한다. 또한 저자는 LLM 모델을 빌드하고, 증강하기 위한 테크닉들을 overview 한다. 그리고 유명한 llm 학습, 파인튜닝, 평가에 필요한 데이터셋을 조사하고, 평가 메트릭과 대표적인 벤치마크 셋에서의 llm의 성능을 비교할 것이다. 그리고 마지막으로 open challenge와... [Read More]