Chika Komari's Learning Blog

讨论:从《DeepSeek-R1 通过强化学习激励LLM中的推理》开始

关键观点:LLM 的推理能力可以通过纯强化学习 (RL) 来激励,从而无需人工标记的推理轨迹 讨论点一:推理 如何训练LLM的推理能力 如何在给予LLM自主推理的同时优化沟通体验 强化学习 GRPO与PPO 奖励机制设置 提出两种奖励:基于规则的奖励(准确率奖励+格式奖励)和基于模型的奖励(是否有用+是否安全)

本体工程

本体工程基础 本体工程的定义与演变 本体工程的定义 本体工程的概念今年来在不断演变,其侧重可以概括为以下几点: 专业术语、概念、命名法 实体关系 概念辨别、定义修正、关系优化 其逐渐从宽泛类属和术语定义转向了更为严谨的从属和逻辑关系。 本体工程应该具有的特性 本体工程应该具有的特性包括: 以声明性知识表示语言形式编码 语法结构良好,能经过适当的语法检...

机器学习与算法交易(六): 深度学习技术及其在算法交易的应用

用于交易的深度学习 作为表征学习的深度学习 许多⼈⼯智能任务,如图像或语⾳识别,都需要关于世界的知识。其中⼀个关键挑战是如何对这些知识进⾏编码,以便计算机能够利⽤它们。⼏⼗年来,开发机器学习系统需要⼤量的领域专业知识,才能将原始数据(如图像像素)转换为学习算法可以⽤来检测或分类模式的内部表征。 同样,机器学习算法能为交易策略增加多少价值,很⼤程度上取决于我们构建特征的能⼒,这些特征需要...

机器学习与算法交易(五): 无监督学习及相关技术应用

⽆监督学习实现数据驱动的⻛险因⼦和资产配置 ⽆监督学习通过学习⼀种信息丰富的数据表示,帮助探索新数据、发现有⽤的⻅解或更有效地解决其他任务。降维和聚类是⽆监督学习的主要任务。 维度灾难 由距离公式: [d(p,q)=\sqrt{\sum\limits_{i=1}^{n}(p_i-q_i)^{2}}] 随特征数量增多,维度更高,特征空间更稀疏,因此需要更多观测值将数据点间的平均距离维...

机器学习与算法交易(四): 更复杂的机器学习与量化模型

⽤于波动率预测和统计套利的时间序列模型 本部分,我们将构建动态线性模型,以明确表示时间,并纳⼊在特定时间间隔或滞后期观测到的变量。时间序列数据的⼀个关键特征是其序列顺序:我们的数据不是像横截⾯数据那样的单个观测值的随机样本,⽽是⼀个我们⽆法重复的随机过程的单次实现。我们的⽬标是识别时间序列中的系统性模式,以帮助我们预测该时间序列未来的⾏为。 用于诊断和特征提取的工具 时间序列有一系列离...

机器学习与算法交易(三): 机器学习与因子分析交易流程

机器学习流程 为任务匹配算法 不同算法的假设空间⼤⼩差异显著。⼀⽅⾯,这种限制使得成功的搜索成为可能;另⼀⽅⾯,它也意味着⼀种归纳偏⻅,当算法从训练样本泛化到新数据时,可能会导致性能不佳。因此,关键的挑战在于如何选择⼀个模型,其假设空间既要⼤到⾜以包含学习问题的解决⽅案,⼜要⼩到⾜以在给定训练数据规模的情况下确保可靠的学习和泛化。有了信息量更⼤的数据,拥有更⼤假设空间的模型成功的机会也更...

机器学习与算法交易(二): 金融特征工程与简单量化交易

金融特征工程——α因子研究 算法交易策略由信号驱动,这些信号指示何时买卖资产,以期获得相对于基准(如指数)的超额回报。资产回报中⽆法由该基准⻛险敞⼝解释的部分被称为阿尔法(alpha),因此,旨在产⽣此类⾮相关回报的信号也被称为阿尔法因⼦。数⼗年的研究积累了⼤量关于市场运作⽅式的知识,并由此揭示了哪些特征在解释或预测价格变动⽅⾯可能优于其他特征。 解释 假设你投资了一个基金,它的年...

机器学习与算法交易(一): 发展历史与数据

机器学习在算法交易中的发展潮流 量化投资与因子制取方法的发展 随着交易不断的高频化和隐藏化,为了在混乱的交易中脱颖而出,则需要研究更加优秀的算法;同时,由于交易和风险紧密相连,风险因子的探究也变得愈发重要,从单因子逐渐演变为了双因子。 在重视程度方面,基本面投资者也开始愈加关注量化投资方法。在数据选择上,因为内幕数据的不合法隐患,用算法高效处理各类大量数据显得愈加重要,尤其是另类数据获...

赞哦校园集市分析助手

总览 2024年暑假,本人计划开始构建一个能智能提取、分类的校园集市助手,可惜当时技术和时间有限,在随便完成爬取后就匆匆作罢;2025年暑假,因为多了一年的历练和实习等原因,技术力具有一定提升,因此决定重拾去年未竟之事,做一个初步完整的项目构建,完成了除前端页面外的其它内容。完整项目的构建思路如下: 舆情分析的具体构建思路如下: 资源抽取的具体构建思路如下: ...

统计关系学习(Statistical relational learning)

统计关系学习(Statistical Relational Learning, SRL)是人工智能与机器学习的一个子领域,专注于既具备不确定性(可通过统计方法处理),又具有复杂关系结构的领域模型。通常,SRL 中开发的知识表示形式会使用一阶逻辑(的一部分)来以通用方式(普遍量化)描述领域中的关系特性,同时运用概率图模型(如贝叶斯网络或马尔可夫网络)来处理不确定性;有些方法还借鉴了归纳逻辑编程...