机器学习与算法交易(二): 金融特征工程与简单量化交易

发表于 2025/08/07

作者 Joker

61 分钟阅读

金融特征工程——α因子研究

算法交易策略由信号驱动，这些信号指示何时买卖资产，以期获得相对于基准（如指数）的超额回报。资产回报中⽆法由该基准⻛险敞⼝解释的部分被称为阿尔法（alpha），因此，旨在产⽣此类⾮相关回报的信号也被称为阿尔法因⼦。数⼗年的研究积累了⼤量关于市场运作⽅式的知识，并由此揭示了哪些特征在解释或预测价格变动⽅⾯可能优于其他特征。

解释
假设你投资了一个基金，它的年回报率是 10%；但我们知道它是跟着某个市场基准（比如标普500指数）运作的，而这个基准的风险和收益特征可以解释其中的 8%。
那么：这8% 是由市场风险因子解释的回报；剩下那无法用基准解释的额外2%，就是所谓的 “阿尔法（alpha）”。
Alpha 是资产实际回报中超出由基准风险因子（如市场波动）所能解释的那一部分收益，代表主动管理者带来的“超额回报”或“选股能力”。

从数据到信号

阿尔法因⼦是对原始数据的转换，旨在预测资产价格的变动。它们被设计⽤来捕捉驱动资产回报的⻛险。⼀个因⼦可以组合⼀个或多个输⼊(一个阿尔法因子可能是多个数据源计算而来的，比如动量因子可能用到“过去30天收益率”“成交量变化”等)，但每次策略评估该因⼦以获取信号时，它都会为每个资产输出⼀个单⼀的值(但是当你用这个因子去评估某个资产时，它会输出一个明确的数值，表示这个资产当前的“买入吸引力”)。交易决策可能依赖于不同资产间的相对因⼦值，也可能依赖于单个资产的因⼦模式(可以用因子值和历史比或和其它资产的因子值比)。

产生因子的数据源多种多样，其背后的经济学理论可以是理性的，因此从⻓远来看，因⼦具有⾼回报，以补偿其在经济不景⽓时的低回报；其也可以是⾏为性的，即因⼦⻛险溢价源于代理⼈可能存在的、未被套利消除的偏⻅或不完全理性的⾏为。

为避免错误发现并确保因⼦能提供⼀致的结果，它应当具备有意义的经济学直觉，这种直觉基于各种已确⽴的因⼦类别（如动量、价值、波动率或质量）及其基本原理，这使得因⼦更有可能反映市场会为之补偿的⻛险。

阿尔法因⼦的计算规则：通过简单的算术运算（例如，变量随时间推移的绝对或相对变化、数据序列之间的⽐率，或在时间窗⼝内的聚合，如简单或指数移动平均线）转换原始市场数据、基本⾯数据或另类数据⽽产⽣的。它们还包括从价格和交易量模式的技术分析中产⽣的指标。

因子研究成果

理想世界中，⻛险因⼦之间应当相互独⽴，产⽣正的⻛险溢价，并构成⼀个完整的集合，能够涵盖所有⻛险维度，并解释特定类别资产的系统性⻛险。但在实践中，这些要求只能近似满⾜，不同因⼦之间存在着重要的相关性。

动量投资(基于趋势)

动量投资是最早出现的因子策略之一，基本做法是：买入近期表现强劲的资产，卖出表现疲弱的资产。动量策略基于一个前提：资产价格具有趋势性，即当前的涨跌会延续（表现为价格的正向序列相关性）。这一点与有效市场假说相冲突（该假说认为过去的价格无法预测未来），但实证结果表明，动量策略在现实中依然有效，并已成为许多交易系统的核心组成部分。

动量效应的成因与驱动因素

行为学反映：反映了投资者⾏为、持续的供需失衡、⻛险资产与经济之间的正反馈循环，或是市场微观结构。⾏为学上的基本原理反映了投资者在处理新信息时速度不同，从⽽对市场新闻产⽣反应不⾜和反应过度的偏差。在对新闻最初的反应不⾜之后，投资者往往会推断过去的⾏为，从⽽形成价格动量。恐惧和贪婪的⼼理也促使投资者增加对盈利资产的敞⼝，并继续抛售亏损资产。
基本面驱动：
- 风险资产和经济之间的正反馈循环：经济增⻓会提振股市，由此产⽣的财富效应⼜通过增加⽀出反馈到经济中，再次推动增⻓。
- 市场摩擦导致的持续的供需失衡：商品⽣产在适应需求变化时存在延迟。⽯油⽣产可能滞后于经济繁荣带来的更⾼需求数年之久，⽽持续的供应短缺可能引发并⽀持价格的上涨动量。
- 投资者实施模仿其⾃身偏差的策略：“⽌损不⽌盈”的交易智慧让投资者使⽤⽌损、固定⽐例投资组合保险（CPPI）、动态 Delta 对冲或基于期权的策略（如保护性看跌期权）。这些策略会产⽣动量，因为它们意味着投资者预先承诺在资产表现不佳时卖出，在表现优异时买⼊。

对于该因子有诸多衡量指标，例如下面这些：

因子 (Factor)	描述 (Description)
相对强弱指数 (RSI)	RSI通过比较不同股票近期的价格变化幅度，来识别股票是处于“超买”还是“超卖”状态。高RSI（通常高于70）表示超买，而低RSI（通常低于30）表示超卖。它首先计算在给定天数（通常为14天）内，上涨日的平均价格变动 $\Delta_{p}^{up}$ 和下跌日的平均价格变动 $\Delta_{p}^{down}$，然后通过以下公式计算RSI：$RSI = 100 - \frac{100}{(1 + \frac{Δp_{up}}{Δp_{down}})}$
价格动量	该因子计算过去特定交易日内的总回报。在学术文献中，由于经常观察到的短期反转效应，通常会使用过去12个月（不包括最近一个月）的数据。然而，更短的周期也已被广泛使用。
12个月价格动量成交量调整	该指标通过将过去12个月的总回报除以这些回报的标准差来进行归一化。
价格加速度	价格加速度通过对较长和较短时期（例如1年和3个月的交易日）的每日价格进行线性回归，计算出价格趋势的梯度（经波动性调整），并比较斜率的变化作为价格加速度的衡量标准。
较52周高点下跌百分比	该因子使用最近价格与过去52周最高价格之间的百分比差异。
盈利预测数量	此指标根据共识预估的数量对股票进行排名，作为分析师覆盖度和信息不确定性的一个代表。数值越高越理想。
N个月评级变化	该因子根据过去N个月内共识评级的变化对股票进行排名，其中评级改善是理想的（无论是从“卖出”上调至“持有”，还是从“买入”上调至“强力买入”等）。
12个月流通股变化	该指标衡量过去12个月公司经拆股调整后的流通股数量变化，其中负向变化意味着股票回购，是理想的信号，因为它表明管理层认为该股票相对于其内在价值被低估，因此具有未来价值。
6个月目标价变化	该指标追踪过去6个月平均分析师目标价的变化。自然地，较高的正向变化是更理想的。
净盈利修正	该因子将盈利预测向上修正和向下修正之间的差异表示为总修正次数的百分比。
空头净额占流通股比例	该指标衡量当前被卖空的股票占流通股的百分比。卖空指投资者借入股票并卖出，期望其价格下跌后再买回以获利。因此，高水平的空头净额表明市场情绪悲观，并预示未来表现可能不佳。

价值因子(基本面发掘)

股价相对于其基本⾯价值较低的股票，其回报率往往会超过按市值加权的基准。价值因⼦反映了这种相关性，旨在为被低估的廉价资产发出买⼊信号，并为被⾼估的资产发出卖出信号。因此，任何价值策略的核⼼都是⼀个估算资产公允价值或基本⾯价值的模型。公允价值可以定义为⼀个绝对的价格⽔平、相对于其他资产的价差，或者资产应该交易的价格区间。

基本价值策略：从经济和基本⾯指标中推导出资产的公允价值，这些指标取决于⽬标资产类别。股票价值法将股价与基本⾯指标进⾏⽐较，例如账⾯价值、营业收⼊、净利润或各种现⾦流指标。
市场价值策略：利⽤统计或机器学习模型来识别因流动性供给效率低下⽽导致的错误定价。统计套利和指数套利是捕捉短期内暂时性市场影响回归的典型例⼦。在更⻓的时间范围内，市值交易还利⽤了股票和商品中的季节性效应。
跨资产相对价值策略：跨资产相对价值策略关注的是不同资产类别之间的错误定价。相对价值策略包括信⽤和股票波动率之间的交易、利⽤信⽤信号交易股票，或商品与相关股票之间的交易等。

价值因子的成因与驱动因素

价值效应的存在既有理性的解释，也有⾏为⾦融学的解释。价值效应被定义为价值股投资组合相对于成⻓股投资组合的超额回报，前者的市值相对于基本⾯较低，⽽后者的市值相对于基本⾯较⾼。

理性的有效市场观点：价值溢价是对更⾼实际⻛险或感知⻛险的补偿。研究⼈员提供的证据表明，与更精简、更灵活的成⻓型公司相⽐，价值型公司适应不利经济环境的灵活性较差，或者价值股的⻛险与⾼财务杠杆和更不确定的未来收益有关。价值股和⼩型股投资组合⽐成⻓股和⼤型股投资组合对宏观冲击更为敏感。
⾏为⾦融学的⻆度：价值溢价可以⽤损失厌恶和⼼理账户偏差来解释。由于前期收益提供了缓冲，投资者可能不太关⼼近期表现强劲的资产所产⽣的亏损。这种损失厌恶偏差会诱使投资者认为该股票的⻛险⽐以前更低，并以更低的折现率对其未来现⾦流进⾏折现。反之，近期表现不佳可能会导致投资者提⾼该资产的折现率。

这些差异化的回报预期可以产⽣价值溢价：相对于基本⾯⽽⾔市盈率较⾼的成⻓股在过去表现良好，但由于投资者对⻛险较低的偏⻅，他们未来会要求更低的平均回报，⽽价值股的情况则正好相反。

捕捉价值效应的因子

因子 (Factor)	描述 (Description)
现金流收益率	该比率用每股运营现金流除以股价。较高的比率意味着股东能获得更好的现金回报（如果通过股息或股票回购支付，或在业务中进行有利可图的再投资）。
自由现金流收益率	该比率用每股自由现金流（反映了在扣除必要开支和投资后可供分配的现金量）除以股价。更高且不断增长的自由现金流收益率通常被视为业绩超群的信号。
投入资本现金流回报率 (CFROIC)	CFROIC衡量一家公司的现金流盈利能力。它用运营现金流除以投入资本（定义为总债务加净资产）。更高的回报意味着企业在给定的投入资本下拥有更多现金，为股东创造更多价值。
现金流与总资产比率	该比率用运营现金流除以总资产，表明一家公司相对于其资产能产生多少现金。与CFROIC一样，比率越高越好。
自由现金流与企业价值比率	该比率衡量一家公司产生的自由现金流相对于其企业价值（衡量为股权和债务的总价值）的水平。债务和股权价值可以从资产负债表中获取，但假设相应资产被活跃交易，那么市场价值通常能提供更准确的情况。
EBITDA与企业价值比率	该比率衡量公司的息税折旧及摊销前利润（EBITDA，可作为现金流的代表）与其企业价值的相对关系。
盈利收益率	该比率用过去12个月的盈利总和除以最后的市场（收盘）价。
远期一年盈利收益率	该比率不使用历史盈利，而是用股票分析师对未来12个月的平均盈利预测除以最新价格。
市盈增长率 (PEG ratio)	市盈增长率（PEG）用一只股票的市盈率（P/E）除以给定时期内的盈利增长率。该比率通过公司的盈利增长来调整为一美元的盈利所支付的价格（由市盈率衡量）。
相对于行业的远期一年市盈率	预测相对于相应行业市盈率的远期市盈率。它旨在通过考虑行业间的估值差异来减轻通用市盈率的行业偏见。
销售收益率	该比率衡量股票的估值与其创造收入能力的相对关系。在其他条件相同的情况下，历史上销售额与价格比率较高的股票预计会有更好的表现。
远期销售收益率	远期销售额与价格比率使用分析师的销售预测，并将其合并为一个（加权）平均值。
账面价值收益率	该比率用历史账面价值除以股价。
股息收益率	当前的年化股息除以最后的收盘价。贴现现金流估值法假设公司的市场价值等于其未来现金流的现值。

规模效应与风险因子

规模效应是较早出现的⻛险因⼦之⼀，它与低市值股票的超额表现有关。近期的研究表明，低波动率因⼦能够捕捉到波动率、⻉塔系数或特质⻛险低于平均⽔平的股票所产⽣的超额回报。市值较⼤的股票往往波动率较低，因此传统的规模因⼦常常与较新的波动率因⼦结合使⽤。

低波动率异象是⼀个与基本⾦融学原理相悖的实证难题。资本资产定价模型（CAPM）及其他资产定价模型都断⾔，⾼⻛险应带来⾼回报（我们将在下⼀章详细讨论），但在许多市场中，⻓期以来的事实却恰恰相反，⻛险较低的资产表现优于⻛险较⾼的同类资产。

风险因子的成因与驱动因素

低波动率异象与有效市场假说和资本资产定价模型（CAPM）假设的⽭盾成因解释包含如下几种观点。

彩票效应：建⽴在经验证据之上，即个⼈会参与类似彩票的投注，这些投注预期损失很⼩，但潜在收益巨⼤，尽管这种巨⼤收益的概率可能相当低。如果投资者认为低价、⾼波动性股票的⻛险回报特征就像⼀张彩票，那么它可能是⼀种有吸引⼒的赌注。因此，由于投资者的偏好存在偏差，他们可能会为⾼波动性股票⽀付过⾼的价格，⽽为低波动性股票⽀付过低的价格。
代表性偏差：投资者会将少数⼴为⼈知的⾼波动性股票的成功外推到所有⾼波动性股票上，⽽忽略了这类股票的投机性质。投资者也可能对⾃⼰的预测能⼒过于⾃信，对于结果更不确定的⾼波动性股票，由于通过做多（即持有⼀项资产）来表达积极观点⽐通过做空来表达消极观点更容易，因此乐观主义者的⼈数可能会超过悲观主义者，并持续推⾼⾼波动性股票的价格，从⽽导致回报率降低。
⽜市危机期间的不同⾏为：⽜市期间，⻉塔系数的离散度要低得多，因此低波动性股票即使表现不佳，也不会差太多；⽽在危机期间，投资者会寻求或持有低波动性股票，⻉塔系数的离散度会增加。因此，从⻓远来看，低波动性的资产和投资组合表现更好。

风险因子与波动率的衡量

⽤于识别低波动率股票的指标范围很⼴，⼀端是已实现波动率（标准差），另⼀端是预测（隐含）波动率和相关性。有些⼈将低波动率操作化为低⻉塔系数。有证据表明，对于不同的指标，波动率异象都显得相当稳健。

质量因子

质量因⼦旨在捕捉那些⾼盈利、运营⾼效、安全、稳定且治理良好的公司所获得的超额回报——简⽽⾔之，就是⾼质量。市场似乎也会奖励盈利相对确定的公司，并惩罚那些盈利波动性⾼的股票。鉴于质量的主观性，主要挑战在于如何使⽤量化指标来⼀致、客观地定义质量因⼦。

基于独⽴质量因⼦的策略往往表现出反周期性，因为投资者愿意⽀付溢价来最⼩化下⾏⻛险，从⽽推⾼了估值。因此，质量因⼦在多因⼦策略中常与其他⻛险因⼦相结合，最常⻅的是与价值因⼦结合，以形成“以合理价格投资优质企业”的策略。

质量因子的重要性

质量因⼦之所以能够预示超额收益，是因为卓越的基本⾯——如持续的盈利能⼒、稳健的现⾦流增⻓、审慎的杠杆运⽤、对资本市场融资的低依赖度或较低的财务⻛险——⽀撑着对公司股票的需求，并⻓期⽀持着这类公司的股价。从公司财务的⻆度来看，⼀家优质公司通常会审慎地管理其资本，并降低过度杠杆化或资本过剩的⻛险。

投资者对质量信息反应不⾜，这与动量效应的原理相似，即投资者追逐赢家、抛售输家。同时关于质量溢价与成⻓股的情况类似，购买⼀家基本⾯强劲的公司更容易获得认可，即使其股价正变得昂贵；相⽐之下，购买波动性更⼤（⻛险更⾼）的价值股则更难⾃圆其说。

资产质量的衡量方法

因子 (Factor)	描述 (Description)
资产周转率	该因子衡量公司利用其资产（需要资本）创造收入的效率，其计算方法为销售额除以总资产。周转率越高越好。
资产周转率12个月变动	该因子衡量了过去一年中管理层利用资产创造收入的效率变化。效率提升水平最高的股票通常被认为会跑赢大盘。
流动比率	流动比率是一个流动性指标，用于衡量公司偿还短期债务的能力。它将公司的流动资产与流动负-债进行比较，从质量角度来看，流动比率越高越好。
利息保障倍数	该指标衡量公司偿付其债务利息的难易程度。其计算方法是用公司的息税前利润（EBIT）除以利息支出。比率越高越好。
杠杆率	如果一家公司的债务远超其股权，则被视为高杠杆。债务权益比通常与公司前景成反比，杠杆率越低越好。
派息率	支付给股东的股息在收益中所占的份额。派息率越高的股票，排名越高。
股本回报率 (ROE)	ROE 的计算方法是净利润与股东权益的比率。历史股本回报率越高的股票，排名越高。

在对已被证明与不同程度的超额收益相关的阿尔法因⼦进⾏了⾼层次分类之后，我们可以开始利⽤市场、基本⾯和另类数据来开发我们⾃⼰的⾦融特征。

预测收益的阿尔法因子构建

使用Pandas和Numpy构建因子

步骤一：加载、切片和数据重塑

首先加载原始数据、提出假设并建立逻辑，然后按照不同类型因子的逻辑方向对数据进行提取和重构，进而通过数据处理把逻辑变成变量，并以此做验证。

案例
你先观察市场或读文献（比如 Jegadeesh & Titman 1993）发现：“过去312个月涨得好的股票，未来36个月还会涨。”这其实是个经验假设，但被大量历史数据支持。
然后构造一个数字（特征）能体现“过去表现”：过去3个月收益率？过去12个月涨了多少？过去12个月减去最近1个月，是不是开始回调？
然后进行数据处理，把逻辑变成变量，从“价格”提取出“信号”。
验证该因子是否有用：拿“动量因子”按分位数分组、计算未来收益的差值，看因子强不强、稳不稳、有没有预测力

如何构思出属于自己的因子
读经典文献，理解因子的定义方式和方向；用投资逻辑反推变量，然后验证关系；模仿别人造过的因子，然后做一些微创新改造；系统读教材/学习课程，系统性理解。
步骤二：去噪、优化和因子完善

这一步通常通过卡尔曼滤波器、小波降噪等方法处理信号与噪声，用TA-Lib等库构建技术因子，快速生成交易信号；从而“拿现成的工具快速做技术因子”。
步骤三：回测、多因子研究和策略评估

这里可以用Zipline回测单因子策略；然后用Quantopian做多音字研究，对因子进行拼装和综合信号输出；进而用Alphalens 做信号质量与策略表现评估，借助不同的诊断指标进行评测，从而实现因子优化和组合

投资组合优化与绩效评估

阿尔法因⼦⽣成信号，算法策略将其转化为交易，进⽽产⽣多头和空头头⼨。由此产⽣的投资组合的回报和⻛险决定了策略的成败。

在实际市场条件下实施策略之前，我们需要模拟算法将要进⾏的交易并验证其表现。策略评估包括根据历史数据进⾏回测以优化策略参数，以及进⾏前向测试以根据新的样本外数据验证样本内表现。其⽬标是避免因根据特定的过往情况定制策略⽽导致错误的发现。

历史上，哈⾥·⻢科维茨于 1952 年提出了基于分散化的现代投资组合管理理论，成果是均值-⽅差优化，即为⼀组给定的资产选择权重，以在给定的预期回报下，将以回报标准差衡量的⻛险降⾄最低；资本资产定价模型（CAPM）引⼊了⻛险溢价，将其作为持有资产的均衡回报，度量⽅式为预期回报超出⽆⻛险投资的部分；凯利准则是⼀种流⾏的动态投资组合优化⽅法，⽤于选择⼀段时间内的⼀系列头⼨。

衡量投资组合的表现

为评估和⽐较不同的策略，或改进现有策略，我们需要⼀些指标来反映它们在实现我们⽬标⽅⾯的表现。在投资和交易中，最常⻅的⽬标是投资组合的回报和⻛险。

通常，这些指标会与⼀个基准进⾏⽐较，该基准代表了其他可⾏的投资机会，例如像标普 500 指数这样代表美国股市整体情况的摘要，或固定收益资产的⽆⻛险利率。

令$R$为单周期简单投资组合回报的时间序列，即：

\[R=(r_{1}, \cdots, r_{T})\]

令该周期下与之匹配的无风险利率时间序列为：

\[R^{f}=(r_{1}^{f},\cdots, r_{T}^{f})\]

因此超额回报为：

\[R_{e}=R-R_{f}=(r_{1}-r_{1}^{f}, \cdots, r_{T}-r_{T}^{f})\]

夏普比率

事前夏普⽐率（SR）将投资组合的预期超额收益与其波动率（以其标准差衡量）进⾏⽐较。它将平均超额收益作为每单位所承担⻛险的补偿来进⾏衡量；由于预期收益和波动率是⽆法直接观测的，因此可以根据历史数据估算：

\[SR=\frac{\mu-R_{f}}{\sigma_{R^{e}}}=\frac{E(R_{t})-R_{f}}{\sqrt{Var(R-R^{f})}} \to \frac{\hat{\mu}_{R^{e}}-R_{f}}{\hat{\sigma}_{R^{e}}^{2}}=\frac{\frac{1}{T}\sum\limits_{t=1}^{T}r_{t}^{e}-R_{f}}{\frac{1}{T}\sum\limits_{t=1}^{T} (r_{t}^{e}-\frac{1}{T}\sum\limits_{t=1}^{T}r_{t}^{e})^{2}}\]

对于独⽴同分布（IID）的回报，根据⼤样本统计理论，夏普⽐率估计量的统计显著性检验分布，源于中⼼极限定理（CLT）在 $\hat{\mu}$ 和 $\hat{\sigma}^{2}$ 上的应⽤。CLT 表明，像 $\hat{\mu}$ 和 $\hat{\sigma}^{2}$ 这样的独⽴同分布随机变量之和会收敛于正态分布。

当需要⽐较不同频率的夏普⽐率时，⽐如⽉度数据和年度数据，可以将较⾼频率的夏普⽐率乘以较低频率周期所包含的相应周期数的平⽅根；如产品卖给月度转化为年度，则乘以 $\sqrt{12}$ 。

然⽽，⾦融回报通常不符合独⽴同分布的假设。Andrew Lo 推导出了针对平稳但⾃相关的回报分布和时间聚合的必要调整。这⼀点⾮常重要，因为投资策略的时间序列特性（例如，均值回归、动量和其他形式的序列相关性）可能对夏普⽐率估计量本身产⽣不可忽视的影响，尤其是在根据⾼频数据年化夏普⽐率时。

复习：独立同分布
指这组随机变量中的每一个变量的取值，都不会影响或依赖于其他任何变量的取值；同分布则指这组随机变量都遵循同一个概率分布。

信息比率

信息⽐率(IR)与夏普⽐率相似，但它使⽤基准⽽不是⽆⻛险利率。基准通常被选来代表可⽤的投资范围，例如，对于⼀个投资于美国⼤盘股的投资组合，其基准可以是标准普尔 500 指数。因此，信息⽐率衡量的是投资组合相对于跟踪误差的超额回报（也称为阿尔法），⽽跟踪误差是投资组合回报与基准回报之间的偏差，即：

\[HR=\frac{Alpha}{Tracking \ Error}\]

信息⽐率也被⽤来解释超额回报如何取决于基⾦经理的技能及其策略的性质。

主动管理基本法则

信息⽐率(IR)较⾼，反映了相对于所承担的额外⻛险，策略跑赢基准的表现更具吸引⼒。主动管理基本定律解释了如何实现这⼀结果：它将信息⽐率近似为信息系数(IC)与策略⼴度的乘积。

信息系数(IC)：衡量的是回报预测（例如阿尔法因⼦所隐含的预测）与实际远期回报之间的秩相关性。因此，它是衡量基⾦经理预测能⼒的指标。
策略⼴度：则由投资者在给定时间段内进⾏的独⽴押注（即交易）数量来衡量，因此代表了应⽤预测能⼒的能⼒。

主动管理基本定律指出，信息⽐率(IR)，也被称为评估⻛险(Treynor and Black)，是这两个值的乘积。换句话说，它总结了“多下注”（⾼⼴度）和“下好注”（⾼信息系数）的重要性：

\[IR \sim IC \times \sqrt{breadth}\]

该框架已得到扩展，将转移系数(TC)作为⼀个额外因素纳⼊其中，以反映投资组合的约束（例如，对卖空的限制）。这些约束可能会将信息⽐率限制在给定信息系数或策略⼴度下本可达到的⽔平之下。转移系数代表了基⾦经理将洞察⼒转化为投资组合押注的效率：如果没有约束，转移系数将等于 1；但如果基⾦经理即使在预测建议卖空时也不卖空股票，那么转移系数将⼩于 1，并降低信息系数。

基本定律之所以重要，是因为它强调了超额收益的关键驱动因素：准确的预测能⼒，以及做出独⽴预测并据此⾏动的能⼒，⼆者缺⼀不可。

投资组合的⻛险与回报管理

投资组合管理旨在挑选⾦融⼯具并确定其头⼨规模，以实现相对于基准的理想⻛险回报权衡。作为投资组合经理，你在每个时期都需要选择能够优化分散投资的头⼨，以便在实现⽬标回报的同时降低⻛险。在不同时期之间，这些头⼨可能需要重新平衡，以应对价格变动导致的权重变化，从⽽实现或维持⽬标⻛险状况。

投资组合管理的发展

现代投资组合理论(MPT)

哈⾥·⻢科维茨(Harry Markowitz)于1952年创⽴了现代投资组合理论(MPT)，并提供了通过选择合适的投资组合权重来优化分散投资的数学⼯具，证明了投资组合⻛险（以投资组合回报率的标准差衡量）取决于所有资产回报率之间的协⽅差及其相对权重。这说明了一个最优投资组合的存在。

资本资产定价模型(CAPM)

资本资产定价模型(CAPM)是⼀种建⽴在现代投资组合理论(MPT)⻛险-回报关系基础上的资产估值模型。它引⼊了⻛险溢价的概念，即投资者在市场均衡状态下持有⻛险资产所能期望获得的溢价；该溢价补偿了资⾦的时间价值以及⽆法通过分散投资消除的整体市场⻛险敞⼝(与特定资产的特质⻛险相对)。

不可分散⻛险指那些无法通过多样化投资来消除的风险，例如宏观经济、商业周期等。这也是投资者获得风险溢价的唯一原因。风险溢价指投资者因承担风险而获得的额外回报。这个溢价与资产对“市场投资组合”风险敞口成正比。

资本资产定价模型的数学表达为：

\[E(R_{i})=R_{f}+ \beta_{i} [E(R_{m})-R_{f}]\]

其中$R_{f}$为无风险利率，$E(R_{m})-R_{f}$为市场风险溢价， $\beta_{i}$ 衡量资产 $i$ 对于市场投资组合的风险敞口，$\alpha$ 则为CAPM的截距项。随着该模型的不断进化，原有的 $\alpha$ 被逐渐作为另类 $\beta$ 收纳到风险溢价部分，不同的收纳则反映了不同的投资风格；在剔除了市场风险和所有已知的另类贝塔贡献后，剩下的 $\alpha$ 才是真正的 $\alpha$ 。

真正的阿尔法 = 个别资产的特质回报 + 基金经理捕捉风险敞口时机的能力，这代表了投资经理真正能创造的，与任何已知风险因子都无关的超额回报。

现代投资组合理论

均值-⽅差优化

现代投资组合理论旨在求解最优的投资组合权重，以在给定预期回报的情况下最⼩化波动率，或在给定波动率⽔平的情况下最⼤化回报。其关键的必要输⼊是预期资产回报、标准差和协⽅差矩阵。

具体来看，其就是一个约束模型：
\[\begin{aligned} min_{w} & \quad \sigma^{2}_{PF}=w^{T}\Sigma_{\mathcal{w}} \\ s.t. & \quad w^{T}\mu=\sigma_{PF} \\ & \quad ||w||=1 \end{aligned}\]
其中 $w$ 为投资组合权重向量，$\Sigma$ 为协方差矩阵，$\sigma_{PF}$ 为投资组合方差，$\mu_{PF}$为投资组合的预期回报率。

其具有两个等价目标：
- 最大化回报：给定风险（方差 $\sigma_{PF}^2$）约束，找到预期回报 $μ_{PF}$ 最大的权重组合 $w$
- 最小化风险：在给定的预期回报 $\mu_{PF}$ 约束，找到风险 $\sigma_{PF}^2$ 最小的权重组合 $w$。
均值-⽅差前沿估算是在样本内进⾏的，是⼀种回顾性优化。实践中，投资组合优化需要前瞻性的输⼊和输出。然⽽预期收益极难准确估计。最好将其视为众多改进⽅案的起点和基准。
$\frac{1}{N}$的投资组合

简单的投资组合可以作为有⽤的基准，来衡量那些可能产⽣过拟合⻛险的复杂模型的附加价值。最简单的策略——等权重投资组合——已被证明是表现最佳的策略之⼀。
最小方差投资组合

另⼀种选择是全局最⼩⽅差（GMV）投资组合，它优先考虑⻛险最⼩化，该投资组合可以通过均值-⽅差框架最⼩化投资组合的标准差来计算。
Black-Litterman ⽅法

假设市场是⼀个均值-⽅差投资组合，正如资本资产定价模型（CAPM）的均衡模型所暗示的那样。它建⽴在这样⼀个事实上：观察到的市值可以被视为市场为每只证券分配的最优权重。市场权重反映了市场价格，⽽市场价格⼜体现了市场对未来回报的预期。

该⽅法可以从“市场⾜够接近于 CAPM 所定义的均衡状态”这⼀假设出发，反向推导出不可观测的未来预期回报。投资者可以使⽤收缩估计器（shrinkage estimator）根据⾃⼰的信念来调整这些估计值。该模型可以被解释为⼀种⽤于投资组合优化的⻉叶斯⽅法。
凯利准则及其应用
- 最优下注规模
  
  关键变量：
  - $b$：赔率，定义下注$1时赢得的金额，赔率5/1意味着若下注获胜，则获得$5收益并收回$1本金
  - $p$：定义有利结果可能性的概率
  - $f$：当前资本中用于下注的份额
  - $V$：下注后资本的价值
  凯利准则旨在最大化无限重复下注的价值增长率：
  \[G=\lim\limits_{N \to \infty} \frac{1}{N} log \frac{V_{N}}{V_{0}}\]
  当$W$和$L$分别代表盈利和亏损次数时，则：
  \[\begin{aligned} V_{N} & =(1+b \times f)^{w} (1-f)^{L} V_{0} & \Rightarrow \\ G & =\lim\limits_{N \to \infty}[\frac{W}{N} log(1+ odds \times share)+\frac{L}{N}(1-f)] & \Leftrightarrow \\ & =p log(1+b \times f)+(1-p) log(1-f) & \end{aligned}\]
  进而可以得到最优下注资金份额：
  \[Kelly \ Criterion: \ f^{*}=\frac{b \times p +p-1}{b}\]
- 最优投资-单一资产
  
  在⾦融市场中，结果和备选⽅案都更为复杂，但凯利准则的逻辑仍然适⽤。该准则由爱德华·索普（Ed Thorp）推⼴开来，其中$r$为回报率，$f$为最优投资比例：
  \[E[G]=\int log(1+f \times r)P(r)dr \Leftrightarrow \frac{d}{df}E[G]=\int_{-\infty}^{+\infty} \frac{r}{1+ f \times r}P(r)dr=0\]
- 最有投资-多个资产关键变量：
  - 假设$\bf{f}$为投资比例向量(每个元素为某资产的投资权重)，可为正/负表示多头/空头
  - $\bf{r}$为随机回报向量
  - $\mu=\mathbb{E}[\bf{r}]$为期望收益向量
  - $\Sigma$为回报的协方差矩阵
  则多资产的凯利准则目标函数为：
  \[\max\limits_{\mathbf{f}} \; \mathbb{E}\!\left[ \ln\!\left(1+\mathbf{f}^{\mathsf{T}}\mathbf{r}\right) \right] \approx \mathbf{f}^{\mathsf{T}} \boldsymbol{\mu} - \frac{1}{2}\mathbf{f}^{\mathsf{T}}\Sigma \mathbf{f} \;\;\Rightarrow\;\; \boldsymbol{\mu} - \Sigma\mathbf{f} = 0 \;\;\Rightarrow\;\; \mathbf{f}^{*} = \Sigma^{-1}\boldsymbol{\mu}\]

⻛险平价

过去 15 年间，全球股票市场经历了两次重⼤危机，收益率曲线持续上扬，利率普遍下降，这些事实使得⻛险平价策略看起来尤为诱⼈。许多机构都将⻛险平价策略纳⼊其战略性资产配置中，以进⼀步分散投资组合。⻛险平价策略的⼀种简单实现⽅式是根据资产⽅差的倒数来分配资产，这种⽅法忽略了相关性，尤其不考虑回报预测。

⻛险因⼦投资

估算输⼊的另⼀种框架是深⼊研究驱动资产⻛险和回报的根本决定因素，即因⼦。如果我们理解了因⼦如何影响回报，并且理解了这些因⼦，我们就能构建出更稳健的投资组合。

因⼦投资的概念超越了资产类别的标签。它着眼于我们在上⼀章关于阿尔法因⼦的内容中讨论过的潜在因⼦⻛险，以最⼤限度地发挥多样化的好处。因⼦投资并⾮通过对冲基⾦或私募股权等标签来区分投资⼯具，⽽是旨在基于对基本⻛险因⼦的不同敞⼝，识别出独特的⻛险回报特征。

分层⻛险平价

均值-⽅差优化对预期收益和收益协⽅差的估计值⾮常敏感。当收益率⾼度相关时（实践中通常如此），协⽅差矩阵的求逆也会变得更具挑战性且准确性更低。其结果被称为“⻢科维茨诅咒”：当投资因相关性⽽更需要分散化时，传统的投资组合优化器却可能产⽣不稳定的解决⽅案。错误的估计值可能会完全抵消分散化带来的好处。如前所述，即使是简单的等权重投资组合，在样本外表现也可能优于均值-⽅差优化和基于⻛险的优化。

更稳健的⽅法包括引⼊额外的约束条件（Clarke 等⼈，2002 年）、使⽤⻉叶斯先验（Black 和 Litterman，1992 年），或使⽤收缩估计器来使精度矩阵在数值上更稳定（Ledoit 和 Wolf，2003 年），scikit-learn 中提供了此⽅法。分层⻛险平价（HRP）利⽤⽆监督机器学习来实现更优的样本外投资组合配置。这项投资组合优化领域的最新创新利⽤图论和层次聚类，通过三个步骤构建投资组合（Lopez de Prado，2015 年）。

Raffinot (2016) 提出了⼀种构建层次聚类投资组合 (HCP) 的相关⽅法；摩根⼤通（JP Morgan）在 2012 年对多种股票投资组合测试了 HRP 和 HCP，结果表明，与朴素分散化、最⼤分散化投资组合或 GMV 投资组合相⽐，HRP 尤其能产⽣同等或更优的⻛险调整后回报和夏普⽐率。

头寸
“头寸”（position）是一个金融交易里的专业术语，意思是你在某个资产上的持仓情况，包括：

数量：你持有多少单位的该资产（比如 100 股某股票，或者 -50 表示做空 50 股）

方向：是多头（long，买入持有，预期价格上涨获利）还是空头（short，卖出借来的资产，预期价格下跌获利）

价值：该持仓在某个时间点的市值（数量 × 当前价格）

人工智能, 机器学习, 金融分析

综述笔记金融量化

本文由作者按照 CC BY 4.0 进行授权