Personal Knowledge and Blog System
Joker
研究 x 工程 x 写作的长期实践者
我把学习、实验和项目统一到一条可验证的成长路径,用结构化内容持续迭代。
Roadmap Snapshot
查看完整路线图Featured Artifacts
浏览全部成果Latest Updates
进入博客讨论:从《DeepSeek-R1 通过强化学习激励LLM中的推理》开始
**关键观点**:LLM 的推理能力可以通过纯强化学习 (RL) 来激励,从而无需人工标记的推理轨迹 <img src="/assets/images/LLM学习/deepseek-r1/DeepSeek-R1训练范式.png" alt="描述文字" width=…
赞哦校园集市分析助手
总览 2024年暑假,本人计划开始构建一个能智能提取、分类的校园集市助手,可惜当时技术和时间有限,在随便完成爬取后就匆匆作罢;2025年暑假,因为多了一年的历练和实习等原因,技术力具有一定提升,因此决定重拾去年未竟之事,做一个初步完整的项目构建,完成了除前端页面外…
强化学习(reinforcement learning)
强化学习的数学基础 基本概念 强化学习的基础概名词 - **状态(State)**:表示当下环境,是做决策的唯一依据 - **动作(Action)**:做出的决策,动作种数一般用 表示 - **环境(Environment)**:使智能体不断变换状态的位
- 路线图新增树状层级与局部折叠记忆
- 博客、成果、路线图形成双向关联
- 搜索系统升级为实时全站索引