讨论：从《DeepSeek-R1 通过强化学习激励LLM中的推理》开始

2025/09/23 llm_learning 1 分钟阅读

综述笔记

关键观点：LLM 的推理能力可以通过纯强化学习 (RL) 来激励，从而无需人工标记的推理轨迹

讨论点一：推理

如何训练LLM的推理能力

如何在给予LLM自主推理的同时优化沟通体验

强化学习

GRPO与PPO

奖励机制设置

提出两种奖励：基于规则的奖励(准确率奖励+格式奖励)和基于模型的奖励(是否有用+是否安全)

关联路线图节点

Semantic Signal Mining (Financial Knowledge Graphs)

NOW

O1-KR2: Automated Financial Knowledge-Graph Infrastructure

NOW

关联成果

MM-OPERA (NeurIPS 2025 Poster)

PAPER

AIRI LocalGUI Task Agent (Open Source; In Progress)

PROJECT

CSIRO Biomass Prediction Model Series (Kaggle Models)

PROJECT

Zanao: LLM-driven Market Archive & Analytics

PROJECT

机器学习与算法交易(五): 无监督学习及相关技术应用

2025/08/18

机器学习与算法交易(六): 深度学习技术及其在算法交易的应用

2025/08/18

因子专题：Alpha因子分析

2025/08/18

机器学习与算法交易(四): 更复杂的机器学习与量化模型

2025/08/13

← 《图论导论》平面图 Google 软件工程-序言 →

讨论：从《DeepSeek-R1 通过强化学习激励LLM中的推理》开始

讨论点一：推理

如何训练LLM的推理能力

如何在给予LLM自主推理的同时优化沟通体验

强化学习

GRPO与PPO

奖励机制设置

关联路线图节点

Semantic Signal Mining (Financial Knowledge Graphs)

O1-KR2: Automated Financial Knowledge-Graph Infrastructure

关联成果

MM-OPERA (NeurIPS 2025 Poster)

AIRI LocalGUI Task Agent (Open Source; In Progress)

CSIRO Biomass Prediction Model Series (Kaggle Models)

Zanao: LLM-driven Market Archive & Analytics

相关文章

机器学习与算法交易(五): 无监督学习及相关技术应用

机器学习与算法交易(六): 深度学习技术及其在算法交易的应用

因子专题：Alpha因子分析

机器学习与算法交易(四): 更复杂的机器学习与量化模型

上一篇 / 下一篇