首页
分类
强化学习,微调
分类
取消
强化学习,微调
1
讨论:从《DeepSeek-R1 通过强化学习激励LLM中的推理》开始
2025/09/23
热门标签
金融量化 (7)
资源 (1)
综述笔记 (11)
核心概念 (1)
核心性质 (4)
数据挖掘 (1)
指引 (1)
技术 (7)
导入 (1)
定义 (5)
前端 (5)