讨论:从《DeepSeek-R1 通过强化学习激励LLM中的推理》开始

2025/09/23 llm_learning 1 分钟阅读
综述笔记

关键观点:LLM 的推理能力可以通过纯强化学习 (RL) 来激励,从而无需人工标记的推理轨迹

描述文字

讨论点一:推理

如何训练LLM的推理能力

如何在给予LLM自主推理的同时优化沟通体验

强化学习

GRPO与PPO

奖励机制设置

提出两种奖励:基于规则的奖励(准确率奖励+格式奖励)和基于模型的奖励(是否有用+是否安全)

关联路线图节点

关联成果

相关文章