AI / ML Research

(DeepRAG) Thinking to Retrieval Step by Step for Large Language Models

AI Paper Review

Posted on February 12, 2025

이 논문은 대형 언어 모델(LLM)이 뛰어난 추론 능력을 보여주지만, 시의성, 정확성, 그리고 파라메트릭 지식의 범위 한계로 인해 사실과 다른 정보를 생성하는 문제(환상 현상)를 겪는 점을 지적합니다. 또한, 기존의 Retrieval-Augmented Generation (RAG) 방식은 비효율적인 작업 분해와 중복된 검색 과정으로 인해 불필요한 잡음을 발생시켜 응답 품질을 저하시킬 수 있습니다. 이에 대응하기 위해,... [Read More]

Tags: ai ml LLM RAG

(Towards Large Reasoning Models) A Survey of Reinforced Reasoning with Large Language Models

AI Survey

Posted on February 10, 2025

언어와 인간 추론의 관계: 인간의 추론 과정에서 언어가 중요한 역할을 해왔으며, LLM의 발전으로 복잡한 추론 문제에 도전할 수 있는 가능성이 열렸습니다. ‘생각(Thought)’ 개념 도입: 기존의 단순한 자동회귀 토큰 생성 방식을 넘어, 중간 추론 단계를 나타내는 토큰 시퀀스인 ‘생각’을 도입함으로써 트리 탐색, 반성적 사고 등 복잡한 인간의 추론 과정을 모방할 수... [Read More]

Tags: ai ml Reasoning Models Reinforced Reasoning LLM

(DeepSeek-R1) Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

AI Paper Review

Posted on February 2, 2025

DeepSeek-R1-Zero 학습 방식: 초기 SFT 없이 대규모 강화 학습(RL)만으로 학습되어, 스스로 강력하고 다양한 추론 능력을 발휘함 특징 및 문제점: 자연스럽게 뛰어난 추론 행동들이 나타나지만, 응답의 가독성이 낮고 언어 혼합 현상이 발생하는 문제 존재 [Read More]

Tags: ai ml LLM

DeepSeek-V3 Technical Report

AI Paper Review

Posted on January 17, 2025

DeepSeek-V3는 6710억 개의 총 파라미터를 가진 강력한 Mixture-of-Experts (MoE) 언어 모델로, 각 토큰 처리 시 370억 개의 파라미터가 활성화됩니다. 효율적인 추론과 비용 효율적인 학습을 달성하기 위해, DeepSeek-V3는 Multi-head Latent Attention (MLA) 및 DeepSeekMoE 아키텍처를 채택했으며, 이는 이전 버전인 DeepSeek-V2에서 철저히 검증되었습니다. [Read More]

Tags: ai ml LLM

Speculative Decoding

AI Paper Review

Posted on January 16, 2025

Fast Inference from Transformers via Speculative Decoding [Read More]

Tags: ai ml LLM Speculative Decoding