讨论:从《DeepSeek-R1 通过强化学习激励LLM中的推理》开始
关键观点:LLM 的推理能力可以通过纯强化学习 (RL) 来激励,从而无需人工标记的推理轨迹 讨论点一:推理 如何训练LLM的推理能力 如何在给予LLM自主推理的同时优化沟通体验 强化学习 GRPO与PPO 奖励机制设置 提出两种奖励:基于规则的奖励(准确率奖励+格式奖励)和基于模型的奖励(是否有用+是否安全)
关键观点:LLM 的推理能力可以通过纯强化学习 (RL) 来激励,从而无需人工标记的推理轨迹 讨论点一:推理 如何训练LLM的推理能力 如何在给予LLM自主推理的同时优化沟通体验 强化学习 GRPO与PPO 奖励机制设置 提出两种奖励:基于规则的奖励(准确率奖励+格式奖励)和基于模型的奖励(是否有用+是否安全)
平面图(Planar Graph)的基本知识 平面图(planar graph)的定义:平面图是指不存在交叉(crossing)、能被完整体现在平面(draw in the plain)上的图。 瓦格勒(Wagner,1936)-珐里定理(Fáry,1948):一个简单平面图的任意边都是直线。 交叉数 在平面上绘制一个图 G 时,所需要的最少的边的交叉数量;如对于平面图,交叉数为...
本体工程基础 本体工程的定义与演变 本体工程的定义 本体工程的概念今年来在不断演变,其侧重可以概括为以下几点: 专业术语、概念、命名法 实体关系 概念辨别、定义修正、关系优化 其逐渐从宽泛类属和术语定义转向了更为严谨的从属和逻辑关系。 本体工程应该具有的特性 本体工程应该具有的特性包括: 以声明性知识表示语言形式编码 语法结构良好,能经过适当的语法检...
Alpha 类型分类总览 均值回归型(Mean-Reversion Alpha) alpha 的方向与其所基于的回报方向相反——例如当价格上涨时做空,价格下跌时做多,预期价格将“回归”。示例如下: [\alpha= - \ln (\frac{\text{today’s open}}{\text{yesterday’s open}})] Delay 类型:该示例是一个 delay-0 ...
用于交易的深度学习 作为表征学习的深度学习 许多⼈⼯智能任务,如图像或语⾳识别,都需要关于世界的知识。其中⼀个关键挑战是如何对这些知识进⾏编码,以便计算机能够利⽤它们。⼏⼗年来,开发机器学习系统需要⼤量的领域专业知识,才能将原始数据(如图像像素)转换为学习算法可以⽤来检测或分类模式的内部表征。 同样,机器学习算法能为交易策略增加多少价值,很⼤程度上取决于我们构建特征的能⼒,这些特征需要...
⽆监督学习实现数据驱动的⻛险因⼦和资产配置 ⽆监督学习通过学习⼀种信息丰富的数据表示,帮助探索新数据、发现有⽤的⻅解或更有效地解决其他任务。降维和聚类是⽆监督学习的主要任务。 维度灾难 由距离公式: [d(p,q)=\sqrt{\sum\limits_{i=1}^{n}(p_i-q_i)^{2}}] 随特征数量增多,维度更高,特征空间更稀疏,因此需要更多观测值将数据点间的平均距离维...
⽤于波动率预测和统计套利的时间序列模型 本部分,我们将构建动态线性模型,以明确表示时间,并纳⼊在特定时间间隔或滞后期观测到的变量。时间序列数据的⼀个关键特征是其序列顺序:我们的数据不是像横截⾯数据那样的单个观测值的随机样本,⽽是⼀个我们⽆法重复的随机过程的单次实现。我们的⽬标是识别时间序列中的系统性模式,以帮助我们预测该时间序列未来的⾏为。 用于诊断和特征提取的工具 时间序列有一系列离...
组件间通信 父子组件通信 父子组件通信是指,B 组件引入到 A 组件里渲染,此时 A 是 B 的父级;B 组件的一些数据需要从 A 组件拿,B 组件有时也要告知 A 组件一些数据变化情况;Child.vue 是直接挂载在 Father.vue 下面的。 # 父组件 Father.vue │ # 子组件 └─Child.vue 常用的方法有: 方案 ...
路由的使用 路由的目录结构 Vue3的路由管理在src/router的目录下: src │ # 路由目录 ├─router │ # 路由入口文件 ├───index.ts │ # 路由配置,如果路由很多,可以再拆分模块文件 ├───routes.ts │ # 项目入口文件 └─main.ts index.ts 是路由的入口文件,如果路由很少,那么可以只维护在这个文件里;项目...
机器学习流程 为任务匹配算法 不同算法的假设空间⼤⼩差异显著。⼀⽅⾯,这种限制使得成功的搜索成为可能;另⼀⽅⾯,它也意味着⼀种归纳偏⻅,当算法从训练样本泛化到新数据时,可能会导致性能不佳。因此,关键的挑战在于如何选择⼀个模型,其假设空间既要⼤到⾜以包含学习问题的解决⽅案,⼜要⼩到⾜以在给定训练数据规模的情况下确保可靠的学习和泛化。有了信息量更⼤的数据,拥有更⼤假设空间的模型成功的机会也更...
Vue3的脚手架构建 Vue的安装与模板创建 vue的安装与简单的模板创建方式如下: ## 安装vue npm i vue ## 全局安装脚手架 npm install -g create-preset ## 使用 `vue3-ts-vite` 模板创建一个名为 `hello-vue3` 的项目 preset init hello-vue3 --template vue3-ts-vit...
TypeScript简介和需求原因 TypeScript 简称 TS ,是在 JavaScript 的基础上增加了一套类型系统,它支持所有的 JS 语句,为工程化开发而生,最终在编译的时候去掉类型和特有的语法,生成 JS 代码。 对于下述JavaScript代码: function getFirstWord(msg) { console.log(msg.split(' ')[0])...
金融特征工程——α因子研究 算法交易策略由信号驱动,这些信号指示何时买卖资产,以期获得相对于基准(如指数)的超额回报。资产回报中⽆法由该基准⻛险敞⼝解释的部分被称为阿尔法(alpha),因此,旨在产⽣此类⾮相关回报的信号也被称为阿尔法因⼦。数⼗年的研究积累了⼤量关于市场运作⽅式的知识,并由此揭示了哪些特征在解释或预测价格变动⽅⾯可能优于其他特征。 解释 假设你投资了一个基金,它的年...
前端工程化 前端工程化需要遵循的一些规范 前端工程化代码的常用结构: src -> 目录 src/main.ts -> 入口文件 src/views -> 路由组件目录 src/components -> 子组件目录 src/router -> 路由目录 在写属性时,尽可能一个属性占一行;同时对多种正确的语法方式要确定一种作为标准 Vue.js与工程...
特征工程(FE)的数学表达 特征工程的数学表达为: [\begin{aligned} & C(T,X)=[t_{i1}(t_{i2}(\cdots(X))),t_{j1}(t_{j2}(\cdots(X))),\cdots] \to [C^{},T^{}]=\argmax\limits_{C,T} R_{m}(C(T,X)) \ & X:原始数据集 \quad T:特征生...
机器学习在算法交易中的发展潮流 量化投资与因子制取方法的发展 随着交易不断的高频化和隐藏化,为了在混乱的交易中脱颖而出,则需要研究更加优秀的算法;同时,由于交易和风险紧密相连,风险因子的探究也变得愈发重要,从单因子逐渐演变为了双因子。 在重视程度方面,基本面投资者也开始愈加关注量化投资方法。在数据选择上,因为内幕数据的不合法隐患,用算法高效处理各类大量数据显得愈加重要,尤其是另类数据获...
总览 2024年暑假,本人计划开始构建一个能智能提取、分类的校园集市助手,可惜当时技术和时间有限,在随便完成爬取后就匆匆作罢;2025年暑假,因为多了一年的历练和实习等原因,技术力具有一定提升,因此决定重拾去年未竟之事,做一个初步完整的项目构建,完成了除前端页面外的其它内容。完整项目的构建思路如下: 舆情分析的具体构建思路如下: 资源抽取的具体构建思路如下: ...
LLM与数据科学领域 专用任务LLM(如命名实体识别、向量化等) 名称 功能描述 链接 拓展部分 GLiNER 轻量高效的零样本命名实体识别模型 https://huggingface.co/knowledgator Gliner-x-larg...
树的性质 树的简洁定义:一个无环连通图就是树,其是最简单的非平凡图类型 平凡图 平凡图指只有一个顶点且没有边的图,非平凡图至少有两个顶点和一条边。 树的性质一 记具有n个节点的图为T,则有以下论断等效: (i) T是树 (ii) T无环,且具有$n-1$条边 (iii) T连通,且具有$n-1$条边 (iv) T连通,各边都为桥(bridge) (v)...
强化学习的数学基础 基本概念 强化学习的基础概名词 状态(State):表示当下环境,是做决策的唯一依据 动作(Action):做出的决策,动作种数一般用$i$表示 环境(Environment):使智能体不断变换状态的位置 智能体(Agent):动作主体 奖励(Reward):智能体执行一个动作后返回的具体数值,由实验者定义 状态空间(State Space...
统计关系学习(Statistical Relational Learning, SRL)是人工智能与机器学习的一个子领域,专注于既具备不确定性(可通过统计方法处理),又具有复杂关系结构的领域模型。通常,SRL 中开发的知识表示形式会使用一阶逻辑(的一部分)来以通用方式(普遍量化)描述领域中的关系特性,同时运用概率图模型(如贝叶斯网络或马尔可夫网络)来处理不确定性;有些方法还借鉴了归纳逻辑编程...
连通性前置知识 游走(walk):从$v_0$到$v_m$的过程,写作 $v_0 \to … \to v_m$ 起始节点(initial vertex) 末端节点(final vertex) 游走长度(walk):从$v_0$到$v_m$的边数 不同种类的游走 轨迹(trail):无重合边的游走 路径(path):无重合边和重合点的游走 闭轨(clos...
图的定义与基础概念 图的组成:节点集[V(G)],边集[E(G)] flowchart LR Graph --> vertices(["V(G)"]) Graph --> edges(["E(G)"]) vertices --> ver_example["格式示范:u"] edges --> ed_examples["格式示范:u,...
书籍内容分布 该书一共可分为四个部分: 第1-3章:基础知识,包括图、有向图、连通性、欧拉和哈密顿路径、循环、树 第4-5章:平面和着色,重点介绍四色定理 第6章:横向理论和连通性 第7章:拟阵 图(graph)的介绍 图的要素 节点(verticle),边(edge),度(degree) 环(loop),重边(multiple edges) 游走...