讨论：从《DeepSeek-R1 通过强化学习激励LLM中的推理》开始

发表于 2025/09/23

作者 Joker

1 分钟阅读

讨论：从《DeepSeek-R1 通过强化学习激励LLM中的推理》开始

关键观点：LLM 的推理能力可以通过纯强化学习 (RL) 来激励，从而无需人工标记的推理轨迹

讨论点一：推理

如何训练LLM的推理能力

如何在给予LLM自主推理的同时优化沟通体验

强化学习

GRPO与PPO

奖励机制设置

提出两种奖励：基于规则的奖励(准确率奖励+格式奖励)和基于模型的奖励(是否有用+是否安全)

人工智能, 强化学习，微调, 金融分析

本文由作者按照 CC BY 4.0 进行授权