The lexical ratio: A new perspective on portfolio diversification
创建于 更新于
摘要
本报告提出了基于文本数据的全新组合多样化度量指标——词汇比率(Lexical Ratio,LR),通过计算投资组合各资产相关文本的词汇分布熵,捕捉传统基于相关性和波动率指标难以识别的多样化维度。通过对S&P 500组合的实证分析,LR显示出优于马科维茨波动率和多样化比率等传统指标的风险调整收益能力,特别是在波动加剧的市场环境中,LR能揭示资产间潜在的非数值依赖关系,为组合风险管理提供更丰富的信息视角和更稳健的优化结果 [page::0][page::4][page::10][page::19][page::25]。
速读内容
- 传统组合多样化主要依赖资产间相关性和波动率度量,但忽略了资产间非数值性的关系,尤其在市场压力下表现不足 [page::1][page::2].
- 报告引入了词汇比率(LR),通过将每个资产视作包含金融和行业关键词的文本,计算组合中词汇分布的归一化香农熵,评估信息分布的均衡性以反映多样化水平 [page::4][page::5].
- LR具有多项理论优势,包括最大化、加法性、凹性、连续性、非负性、对称性、扩展性及尺度不变性,确保其在不同组合配置下的鲁棒性和合理解释 [page::5][page::6][page::27].
- 具体示例展示LR如何区分技术与医疗资产组合的多样化程度及基于新闻影响(如石油运输新闻)对组合均衡性的衡量,反映词汇分布的多样性与均衡度 [page::7][page::9].
- LR与传统指标(马科维茨波动率,基于波动率和VaR的多样化比率)之间的条件依赖及回归分析表明,LR与传统指标高度相关但不完全重叠,揭示多元但独特的信息视角 [page::12][page::14].
- 通过Azadkia–Chatterjee条件依赖度量,部分行业组合如消费品显示LR和传统指标强依赖关系,而工业板块无明显依赖,表明LR捕获了部分传统指标未覆盖的多样化特征 [page::14].
- 统计显著性高达98%,并且LR与传统指标整体呈负相关,符合更高多样化对应更低波动率的预期,验证LR的有效性 [page::15].
- LR表现出时间稳定性,基于变异系数的测试显示LR波动幅度明显低于传统指标,表明其作为多样化度量更为稳健 [page::16][page::17].
- 真实市场测试中,基于新闻头条计算LR,采用SLSQP方法多目标优化组合权重,LR优化组合在夏普比率和Sortino比率方面均显著优于传统指标,显示出更优的风险调整收益表现 [page::17][page::18][page::19][page::20].


- 未来拓展方向包括引入时间衰减因子,使LR对近期新闻赋予更大权重;引入风险关键词加权以更敏感地反映下行风险;以及构建跨行业系统性风险衡量指标[page::23][page::24].
- LR整合文本信息优势在于避免传统模型对历史收益的依赖,具备在动荡市况中捕捉特殊风险和隐藏依赖关系的能力,适合金融机构和基金经理用于改善风险管理和组合构建 [page::25][page::26].
深度阅读
The Lexical Ratio: A New Perspective on Portfolio Diversification — 深度分析报告
---
1. 元数据与概览
- 报告标题:《The lexical ratio: A new perspective on portfolio diversification》
- 作者:Sayyed Faraz Mohseni, Hamid Arian, Jean-François Bégin
- 发布机构:未明示具体机构,文中提及加拿大自然科学与工程研究理事会及西蒙弗雷泽大学支持
- 发布日期:数据使用截至2024年中,有参考2024年数据,推断为2024年发布
- 主题:提出一种基于文本分析的全新投资组合多元化度量指标——Lexical Ratio(LR),相较传统的基于资产收益相关性和波动率的指标,LR利用自然语言处理(NLP)技术,结合信息论中熵的概念,量化资产间非数值性的关系,对投资组合稳定性和风险管理提出新视角。
核心论点
报告提出Lexical Ratio(LR)这一创新指标,以资产相关的文本数据(新闻标题、财报关键词等)构建词频分布,结合归一化的信息熵原理,衡量投资组合的多元化程度。实证分析表明,LR不仅与传统波动率、多元化比率等指标相关,而且能捕捉现有指标忽视的隐性信息,增强风险调整后的收益表现,尤其在市场波动和特定行业冲击时表现优异。
---
2. 逐节深度解读
2.1 报告引言与背景 (第1-3页)
- 关键内容摘要:
- 传统多元化指标依赖资产相关性和收益波动性,基于Markowitz(1952)均值-方差理论,卷取资产相关性低的组合实现风险分散。
- 然而,这些指标过于依赖历史数值数据,存在鲁棒性不足,现实中在样本外表现差,且难以捕捉非数值的资产关联性。
- 近年来,文本数据(新闻、社媒、财报)逐渐丰富,为捕捉资产间非传统信息提供可能,信息熵成为理论基础,用于衡量资产权重分布多样性。
- 熵在最大化资产组合异质性和优化收益表现上有积极效果,但现有熵方法更偏优化策略,缺乏数学上直接量化多元化的函数。
- NLP技术主要集中于情绪分析、收益预测,年来逐渐应用于金融领域。本文开创性地提出首个基于语言学的多元化指标,LR。
- 作者目的:
- 介绍LR,论述其理论性质
- 指出传统损失基多元化度量的缺陷
- 通过实际数据比较多元化指标表现,展示LR优势
- 后续章节安排简介:
- 第2节论述LR定义及性质
- 第3节实证对比分析
- 第4节讨论潜在拓展
- 第5节总结 [page::0,1,2,3]
2.2 Lexical Ratio (LR)的定义与计算(第4-8页)
- 定义:
- 将每个资产视为一个“文档”,由若干与该资产相关的词语(例如行业关键词、新闻事件词典)构成。
- 通过资产权重对各资产文档中词频的加权汇总,计算整体词频分布。
- 利用归一化的Shannon信息熵计算该词频分布的熵值,即LR。
- 公式:
\[
\mathrm{LR} = -\frac{1}{\log(m)} \sum{k=1}^m \left(\frac{\sum{i=1}^n wi c{i,k}}{\sum{i=1}^n \sum{j=1}^m wi c{i,j}} \right) \log\left( \frac{\sum{i=1}^n wi c{i,k}}{\sum{i=1}^n \sum{j=1}^m wi c{i,j}} \right)
\]
其中,
- \(m\):所有文档中独特词汇数,用作归一化基数
- \(n\):资产数量
- \(wi\):资产权重
- \(c{i,k}\):资产\(i\)中文档第\(k\)个词的出现次数
- 直观解释:
- 词汇分布越均匀,LR值越高,代表投资组合中资产语义信息更加丰富且均衡,体现出高多元化。
- 低LR意味着投资组合集中于单一或少数资产,词汇覆盖范围窄,提示多元化不足。
- 该指标突破传统的收益相关性度量,捕捉资产间非数值性联系和不同新闻影响的差异。
- 计算举例:
- 两资产组合(科技T,医疗H),权重平衡 \(w1 = w_2 = 0.5\),词文组合“TTTTTHHHHH”,得到较高LR。
- 单一资产权重为1,词语全是单一类别,LR为零,显示多元化缺失。
- 关于新闻影响(油运新闻O)不同敏感度资产构成的案例,权重均衡时LR较高,集中单一敏感资产LR低,体现LR对多元化的细腻区分(详见第7-9页)[page::4,5,6,7,8,9]
2.3 LR的理论性质(第5-7页)
- LR继承信息熵性质,满足以下关键特性:
1. 最大性:当所有词汇出现概率均等时,LR最大,符合直观的“最大多元化”概念。
2. 加法性:独立子资产组合的总熵是各部分熵和,有助于分解复杂资产组合。
3. 凹性:词频分布越均衡,熵值越高,激励组合均衡分布。
4. 连续性:权重微调导致LR平滑变化,利于优化稳定性。
5. 非负性:LR恒大于等于零,零标识无多元化。
6. 对称性:词汇顺序无影响,保证公平客观。
7. 可扩张性:无词汇频率影响熵值,保证指标一致性。
8. 尺度不变性:权重缩放不改变LR值,方便在不同归一化场景操作。
- 这些性质保证LR数学上健壮,且直观支持其作为多元化度量的有效性。第27-28页还特别给出围绕尺度不变性的详细证明。[page::5,6,7,27]
2.4 相关文献及LR的创新点(第3-4页)
- 当前NLP技术在金融领域主要用于情绪分析及收益预测,缺乏专门的多元化度量语言学指标。
- LR开辟了基于文本内容的资产关系量化新途径,弥补了传统仅凭数值时间序列数据的局限。
- 该方法同时吸纳信息理论的熵量化框架,使得多元化度量结构更为深刻并具操作性。[page::3,4]
---
3. 图表与数据深度解读
3.1 表1 - Azadkia–Chatterjee条件依赖系数(第14页)
| 投资组合 | 波动率 | DR基于标准差 | DR基于VaR |
|------------------|-------|-----------|----------|
| 个别行业及混合组合 | 0~0.69| 0~0.69 | 0~0.51 |
- 描述:展示LR与传统多元化指标间的条件依赖度,分别在不同资产组合中测算LR与波动率、多元化比率的关系强度,范围由0(无依赖)到1(强依赖)。
- 数据解读:
- 消费品行业与DR基于标准差的依赖度达0.69,说明较强信息共享。
- 工业板块指标间依赖度近零,说明LR与传统指标差异显著或评估维度不重合。
- 混合及高波动组合表现中等至较强依赖,表明LR兼具传统指标优势。
- 联系文本说明:通过这些指标,作者验证LR能有效反映传统数值指标的多元化维度,同时捕捉额外文本信息。[page::13,14]
3.2 表2 - LR与传统指标相关系数(第15页)
- 描述:列出LR与标普波动率、DR(基于标准差和VaR)之间基于多个组合的Pearson相关性,均呈现负相关。
- 趋势解读:负相关符合预期,多元化指标增加(LR升高)通常带来波动率和风险指标下降。
- 细节:相关系数虽多为负,但强度因行业及组合而异,最高约-0.534(材料行业LR与DR标准差),最低接近零或弱相关,表现出LR与传统指标的互补特征。[page::15]
3.3 图1 - LR与DR(波动率基础)散点图及线性拟合(第16页)
- 描述:随机混合组合3中LR与基于波动率的DR指标的关系分布图,呈现明显负相关。
- 解读:
- 点云聚集且拟合线 \(R^2=0.64\),表示LR能较好捕捉多元化带来的风险降低特征。
- 关系较线性,说明LR数值变动能较大程度对应波动率多元化表现。
- 图表支持论点:直观示例验证LR与传统指标的有效关联性。[page::16]
3.4 表3 - 指标稳健性CV对比(第17页)
- 描述:使用变异系数(CV)衡量时间序列中各指标相对波动大小,CV越低,指标稳定性越高。
- 发现:
- LR普遍呈现最低CV,比波动率、DR指标变动幅度小得多。
- 对所有行业及组合均适用,表明LR在不同市场环境下表现更稳健。
- 意义:LR不仅能捕获多元化,还保证指标的稳定性,有助于实际投资决策中的连续性和可靠性。[page::16,17]
3.5 表4及图2-6 - 实盘优化及表现比较(第18-21页)
- 表4列举用LR及传统指标优化的组合的平均夏普率、Sortino比率、年化收益、波动率等,多个随机混合组合和行业组合均显示LR优化后夏普率和Sortino比率最高。
- 图2-3(夏普率及Sortino率时间序列):
- LR曲线较其他指标表现出更稳健且连续的收益风险比,明显优于传统方法。
- 图4-6(收益、波动率及下行波动率时间序列):
- LR优化组合展现较高收益及较低波动的趋势,尤其在COVID-19市场冲击期间,表现更强抗风险能力。
- 文本结合:
- 实施滚动窗口优化与验证,数据期覆盖2018-2024年,确保了结果的现实有效性与稳健性。
- LR能够整合海量文本信息,相较单纯依赖历史收益表现的指标,具备领先优势。[page::18,19,20,21]
---
4. 估值分析
报告并非公司估值研究,而是提出并实证一种新型多元化度量方法,故没有典型财务估值模型(DCF、市盈率等)。
- 但从投资组合优化视角,通过针对不同收益门槛的组合优化(约束年化收益0.07-0.16),利用SLSQP算法优化组合权重,以最大化LR或最小化波动率、DR等指标进行对比。
- 关键假设:
- 风险自由利率设为美国10年期国债平均收益2.4%。
- 文本数据基于历史新闻标题,权重初始随机生成。
- 结论:
- LR的优化方向更能捕获资产间语义多元化,实际表现优于纯波动率及VaR基风险指标的多元化。
- 推荐基于LR的组合权重配置方法兼具理论与实践优点。[page::17,18,19]
---
5. 风险因素评估
报告涵盖的风险主要体现在:
- 文本数据的可用性与质量限制:
- 目前LR依赖历史新闻标题数据,数据窗口为2018-2024年,时长尚短,可能影响文本信息全面性和准确性。
- 市场极端冲击时的关联变化:
- 传统指标受到极端关联性升高影响降低有效性,LR通过非数值信息弥补这一缺陷,但仍需在极端环境验证。
- 模型假设的稳定性:
- 通过尺度不变性等理论保证模型稳健,但文本词频的构造及风险关键词权重的确定存在主观判断可能。
- 缓解策略:
- 报告建议未来结合时间衰减和风险加权,提升LR对新闻信息的时效性和风险敏感性。
- 通过多目标优化、更丰富语料引入等技术升级增强模型适应性。[page::22,23,24]
---
6. 批判性视角与细微差别
- 优点:
- 创新引入文本信息,突破收益数据局限,融合信息论基础,理论严谨。
- 多样化实证方法验证包括条件依赖、随机权重、滚动窗口优化,结论可信。
- 潜在不足:
- 对文本数据的依赖可能导致对非公开信息或语义深度解释不足。
- 词义、语境多义性在LR构建中未深入探讨,未来可结合更复杂NLP技术如语义嵌入。
- 风险关键词权重设置采用简单线性放大,可能不够精准,需要进一步细化。
- 报告强调“超越传统指标”,但同时LR与传统指标表现出较高统计关联,显示未完全脱离传统风险框架。
- 数据局限:
- 主要依据新闻标题,没有整合更丰富的文本来源(社媒、财报全文)
- 市场波动极大事件(如2020年疫情)对LR表现的耐受性值得继续监控验证。
---
7. 结论性综合
《The lexical ratio》一文突破传统基于数值数据的投资组合多元化度量范畴,提出了一种基于NLP和信息熵的创新指标——Lexical Ratio(LR),通过分析资产相关的文字信息构筑词频分布,计算归一化熵值,量化资产间非数值依赖和潜在多元化。
- LR在理论上具备信息熵的核心性质(最大性、凹性、连续性、对称性、尺度不变性等),保证了量度的数学严谨性及应用稳健性。
- 利用标普500各行业及随机、波动率等多样组合,通过条件依赖、相关性、稳健性检验,LR表现出与传统基于波动率和VaR的多元化指标相关但不重合,揭示其捕获了独特的多元化信息。
- LR的稳健性优于传统指标(变异系数更低),说明其在市场不同状态下表现稳定。
- 基于LR优化的组合在滚动窗口实测中,Sharpe率和Sortino率显著优于传统方法,收益更高且风险更小,显示其现实投资使用价值。
- 拓展应用包含时间衰减因子、风险关键词权重调整及多目标优化,将进一步提升其动态适用性和风险感知能力。
整体而言,LR为投资组合多元化提供了全新视角,融合大规模文本信息与严密信息理论,是金融领域NLP技术应用的有益尝试,具备理论与实践双重价值,推动资产配置多元化研究走向信息丰富、视角多维的新时代。[page::0-28]
---
附录:重要图表示例
图1:LR与基于波动率的多元化比率关系(随机混合组合3)

- 图中蓝点代表数据点,红线为线性拟合,拟合优度 \(R^2=0.64\),表明LR与传统指标存在线性负相关。
图2-6:随机混合组合1的回测表现
- Sharpe比率(图2)、Sortino比率(图3):LR曲线普遍领先且更平滑,示范其回报风险效益优势。
- 年化收益(图4)与年化波动率(图5):LR优化组合表现出较高收益及相近或更低的波动率。
- 下行波动率(图6):LR取得较低下行风险,支持其偏好组合结构的稳健性。
---
# 综上,该报告系统而深刻地介绍了Lexical Ratio这一创新投资组合多元化指标,从理论基础、性质论证到大量实证检验,均显示其具有显著优于传统指标的潜力,特别适用于丰富信息环境和复杂市场条件下的资产配置决策,开创了金融多元化量化研究的新方向。