`

Temporal distribution of clusters of investors and their application in prediction with expert advice

创建于 更新于

摘要

本报告基于2015-2017年超过2万名外汇零售交易者数据,研究投资者行为聚类的时间分布特征,发现交易者聚类符合Ewens采样分布。通过结合统计验证网络(SVN)与层次聚类,显著提升了专家建议下的在线预测算法(聚合算法AA)的投资策略表现,有效降低了专家数量过多带来的噪声和预测困难,最终提高投资组合的收益表现和风险控制能力 [page::0][page::1][page::5][page::7][page::13][page::14]。

速读内容

  • 投资者聚类及其时间分布分析 [page::0][page::1][page::5]


- 采用统计验证网络(SVN)结合Infomap算法构建基于交易同步性的投资者网络,并对EUR/USD汇率市场数据进行滑动时间窗口分析。
- 统计指标包括聚类数量、交易者占比、聚类平均规模、边数量、聚类规模分布及模块度变化,显示2016年7月后聚类与连边数量显著增长。
  • Ewens采样分布的拟合与验证 [page::3][page::4][page::7]



- 聚类分布遵循条件Ewens采样分布,拟合参数$\theta$随时间及不同时间分辨率变化,较大时间窗$\delta$内参数稳定。
- $\chi^2$检验显示拟合通过率超过85%至95%,有效验证模型假设。
  • 聚类时间演化与持续性分析 [page::8]


- 利用alluvial图对聚类动态变化(合并、分裂、新增、消失)进行可视化,整体组合稳定但长期存在结构调整。
  • 量化策略:聚类化聚合算法(Clusterised Aggregating Algorithm, CAA)及其变体 [page::9][page::11][page::12][page::13]

- 基于AA的在线专家预测框架,采用Long-Short博弈模型下的收益定义及睡眠专家扩展处理交易者活跃度变化。
- 两种聚类决策规则:均值法(MEAN)对聚类内专家预测均值求权,惩罚法(PEN)按聚类规模归一化降低权重,减少重复专家影响。
- 进一步提出将聚类视为元专家(ECAA),权重动态继承策略应对聚类合并分裂。
  • 实证回测及性能评估 [page::13][page::14][page::15][page::16]






- CAA在基于SVN-Infomap及层次聚类的构造下均优于传统AA和等权重组合,尤其层次聚类结果表现突出,Sharpe比、Calmar比率最高且最大回撤最低。
- ECAA表现相对一般,SVN聚类效果不佳,层次聚类能改善风险指标但收益率受限。
- 通过调整收益尺度因子验证策略稳健性,规模过大会导致部分交易者爆仓,需关注实际应用限制。
  • 理论附录:聚类专家AA的损失界分析 [page::19]

- 理论指出,当大聚类中无优质专家时,聚类化的AA损失界优于整体专家池AA,体现了以聚类为单位的策略在稀有优质专家情形下的优势。

深度阅读

金融市场投资者聚类时间分布及基于专家建议预测的应用详尽分析



---

1. 元数据与概览


  • 报告标题:Temporal distribution of clusters of investors and their application in prediction with expert advice

- 作者:Wojciech Wisniewski、Yuri Kalnishkan、David Lindsay、Siân Lindsay
  • 机构:Royal Holloway, University of London(英国豪罗威皇家学院),AlgoLabs(英国Bracknell)

- 发布时间:2019年左右
  • 研究主题:基于真实外汇交易数据的投资者聚类时间分布建模及基于专家建议的在线预测算法(Aggregating Algorithm,AA)改进研究


报告核心论点及目的



本文在两大核心方面进行探讨:
  1. 投资者聚类的时间分布符合Ewens抽样分布(Ewens' Sampling Distribution),这一点基于对超过2万个零售外汇交易者2015-2017年真实交易数据的聚类分析,验证了该分布模型描述聚类动态的有效性。
  2. 基于专家建议的在线预测算法(Aggregating Algorithm,AA)在投资风险组合的收益改进中的应用及局限性。报告发现AA在大量专家存在,且专家交易行为模式高度相似的情况下表现不佳,因此引入聚类方法作为“专家”降维或分组来提升AA表现。比较了基于统计验证网络(SVN)和层次聚类(hierarchical clustering)两种聚类方法对AA盈利性和平滑性的提升效果。


最终报告展示了如何利用投资者聚类的时变特征,结合专家建议框架为金融交易风险管理和组合投资提供改进方法。

---

2. 逐节深度解读



2.1. 引言与文献综述


  • 介绍了近年来投资者聚类研究从2012年以来的主要贡献,包括利用统计验证网络(SVN)信息图(Infomap)算法层次聚类以及诸多信息论指标如互信息和转移熵进行投资者行为网络分析,反映投资者行为的同步性、连带性和动态影响。
  • 提及Mantegna(2020)指出Musciotto等(2018)的实证研究与Aoki(2000)提出的利用Ewens采样公式描述市场中经济代理人聚类达到动态均衡的理论相吻合。
  • 本研究填补了将聚类结合预测专家建议框架的实证研究空白,认为AA对专家数量的理论依赖较弱(只对数级别,logarithmic),但实际中大量专家带来噪声,使聚类变得必要。


2.2. 投资者同步性聚类方法(章节2)


  • 定义了交易者状态的同步性度量,基于每交易时间段$\delta t$内的买卖量不平衡比率(imbalance ratio):


$$
r(i, t) = \frac{b(i, t) - s(i, t)}{b(i, t) + s(i, t)}
$$
  • 以阈值$a$区分买入、卖出、中性和不活跃四种状态。
  • 利用统计显著性检测交易者状态的重叠次数,基于超几何分布计算$p$值,量化同步性显著性并通过Bonferroni校正调整多重假设检验,以构造统计验证网络(SVN)
  • 在SVN中,保留买买与卖卖同步链接,丢弃买卖相反和中性或不活跃的连接,确保分析主要聚焦于积极同步的交易者群体。


2.3. Ewens采样分布及聚类的数学基础(章节3)


  • 介绍Ewens采样分布为随机整数分割的概率分布,用于描述聚类大小的分布,符合经济代理人达到动态均衡的假设。
  • 定义分割向量$c = (c1, c2, \ldots, cn)$,其中$ci$为含有正好$i$个交易者的聚类个数,满足$\sum i ci = n$。
  • 介绍原始及条件版Ewens分布,条件为$C1=0$,即过滤没有孤立个体的单元素聚类,适合SVN构建的无孤立点结构。
  • 提供$p$值计算的递归公式,便于精准求解难以直接计算的交错级数。
  • 提供了对Ewens条件和非条件分布特征的比较(表格1,但文中部分内容残缺)。


2.4. 实验设计与数据描述(章节4)


  • 利用一家零售FX经纪商提供的真实交易数据(2015-2017,超过2万客户),每笔订单包括匿名ID、开平仓时间、交易量、做多/做空标记和交易币种。
  • 数据处理包括将交易时间线分割为多个不同长度的窗口$\delta t$(10至1440分钟多种),对交易次数达100、500、1000以上的交易者进行过滤。
  • 使用滑动窗口(6个月宽,2周步长)分析聚类随时间演化。
  • 聚类基于SVN统计验证网络,使用Infomap算法进行社区检测,理由为Infomap在社区结构检测中表现优异且统计稳健。
  • 解析聚类指标随时间变化(图1),观察到交易者数量线性增长,2016年7月后聚类和链路数量显著增加,交易者与聚类比率保持稳定,模块度逐步下降说明聚类间连通度弱。
  • 重要点:聚类数量随不同分辨率窗口变化,较短窗口内存在更大聚类,验证了交易策略多样性。


2.5. 拟合优度及参数演化(章节4.4)


  • 使用经典卡方检验$\chi^2$评估Ewens采样分布对聚类大小实证分布的拟合性。
  • 参数$\theta$在滑动窗口中估计,结果显示大部分窗口均未拒绝拟合(95%通过率,对于100次最小交易者截止),表明条件Ewens分布拟合较好(图4)。
  • $\theta$参数对不同$\delta$时间窗口反映不同变化趋势,长窗口较为稳定,短窗口$\theta$随着时间增加,代表交易群体多样性提升(图3)。


2.6. 聚类动态演化与连贯性(章节4.5)


  • 采用Liechti和Bonhoeffer(2020)方法,利用类似Jaccard指数的度量,追踪聚类间成员变动和分组转移,生成流水线图(alluvial plot)(图6)。
  • 观察到群体稳定性及自然出现的聚类分裂、合并、消亡和新生现象,反映投资者策略演化和人员变动的真实状况。
  • 较短窗口聚类个体数较大,长窗口分组较为稳定。


2.7. 聚类辅助的聚合算法(Clusterised Aggregating Algorithm, CAA)(章节5)


  • 引入在线专家建议预测框架(Aggregating Algorithm, AA)


- 学习者在时间序列中对未来结果进行预测,使用损失函数衡量误差。

- AA能够在线融合多个专家(本案例中为交易者)建议,通过调节专家权重动态最小化累积损失。

- 存在“mixability”条件保证算法有效性及损失上界。上界形式为:

$$
LossT(L) \leq C \mini LossT(Ei) + \frac{C}{\eta}\ln N
$$

其中$N$为专家数量,$C,\eta$为算法参数。
  • 长短仓游戏(Long Short Game):模拟现实交易者可持有多空仓位,收益依赖于仓位与市场回报,AA适用于优化其组合策略。
  • 睡眠专家(Sleeping Experts)扩展:应对专家随时间动态活跃/休眠,如交易者停歇或退出现象(算法2)
  • 聚类思想应用于AA


- 提出两种聚类决策规则:

- MEAN:聚类内专家预测取均值,整体权重同聚类总权重。

- PEN:聚类预测对专家预测进行惩罚(除以聚类大小),类似专家信心权重,借鉴于风险均摊思想。

- 建议将聚类视为元专家(ECAA),依据聚类演化(合并拆分)动态调整权重。

---

3. 图表深度解读



3.1. 图1:多时间分辨率下EUR/USD交易者和聚类统计特征随时间的演变page::5]


  • 展示内容:7个子图分别反映不同聚类统计量:


- 聚类数量随时间和时间窗口变化趋势(线条区分不同时间窗口大小$\delta t$)

- 聚类中交易者占全部活跃交易者的比例

- 聚类的平均大小

- 交易者间显著同步链接数

- 聚类数量与交易者数量比

- 模块度(聚类内部连通度质量指标)
  • 数据趋势


- 聚类数量及链接数自2016年7月起显著增加,反映交易量及同步度增加。

- 交易者中纳入聚类的比例随$\delta$增加而增长。

- 平均聚类大小稳定或略有波动,表明战略聚合趋势和多样性平衡。

- 模块度整体较低,表明聚类间连结较弱,体现各投资者群体间相对独立的行动模式。
  • 链接文本论点


图1支持聚类结构时变且与市场活跃度紧密关联,间接证明通过时间划分参数会影响聚类准确度。

3.2. 图2:聚类比例向量及归一化比例向量的时间演变[page::5]


  • 内容说明:利用比例向量$Kn$反映不同聚类尺寸(聚类类型)在时间上的分布变化,采用Infomap算法进行社区识别。
  • 趋势解读


- 聚类归一化比例随时间平稳演变,新大聚类不断出现,反映交易者数量增加及投资策略趋同趋势。

- 较少的单元素聚类对模型设定合理($c
1=0$条件),聚类类型以多人数群为主。
  • 文本关联


该图印证了聚类规模分布符合Ewens模型的假设,也说明聚类结构的稳定性与新旧聚类并存,支持动态聚类研究。

3.3. 图3:参数$\theta$随时间与时间窗口$\delta$变动曲线[page::7]


  • 内容:滑动窗口范围内,200个最活跃交易者的$\theta$参数估计走势,用于描述Ewens采样分布的聚类多样性。
  • 趋势


- 大时间窗口(360、1440分钟)$\theta$基本稳定,体现大周期内策略结构相对稳定。

- 小时间窗口$\theta$呈上升趋势,暗示短期交易聚类策略多样性增多。
  • 关联洞见


说明不同时间尺度下投资者聚类行为存在异质性,为风险管理及预测策略调整提供依据。

3.4. 图4:某滑动窗口下实证聚类类型分布与Ewens理论拟合对比[page::7]


  • 数据表现:柱状图对比了实际数据中不同聚类大小(cluster type)数量与Ewens分布预测的期望值。
  • 结论


- 拟合度较高,绝大多数聚类大小的计数均在合理偏差范围内验证理论。
  • 意义


强化了Ewens采样模型对真实交易者聚类分布的有效性。

3.5. 图5:不同时间窗口及交易量截止标准下$\chi^2$拟合优度的通过率[page::8]


  • 数据说明:柱状图展示不同$\delta$及100、500、1000交易截止对Ewens拟合通过率。
  • 趋势


- 100截断组通过率最高均超过85%。

- 通过率随$\delta$增大有提升,表明更长时间窗口内聚类结构更符合模型假设。
  • 意义


验证了Ewens分布作为理解交易者聚类的合理理论框架。

3.6. 图6:200最活跃交易者一日聚类全流动图(alluvial plot)[page::8]


  • 描述:通过颜色连续性和分支显示聚类的动态演化,包括分裂、合并、消失和新出现。
  • 观察


- 聚类一般表现出一定稳定性。

- 具体有明显分裂及合流事件,反映投资者行为的非静态变化。
  • 价值


有助于捕捉投资者策略的时间演变,为进一步聚类持续追踪及元专家动态权重调整奠定基础。

3.7 图7-11:策略表现与风险指标对比曲线[page::14-16]


  • 主要内容


- 图7-9分别展示了不同聚类策略和AA对不同风险度量指标(Calmar比率、Sharpe比率、收益率、最大回撤)的表现。

- 图10-11为相同策略组合的累计收益与相对回撤动态曲线。
  • 关键趋势


- CAA(聚类后平均/PEN两类策略)整体优于原始AA及基准等权重组合,尤以层次聚类聚类效果更显著。

- ECAA采用聚类作为元专家时,SVN聚类表现不佳,而层次聚类在平滑度及风险调整收益上表现突出。

- 投资回报和最大回撤指标显示聚类辅助方法在风险控制和盈利能力间取得更好平衡。
  • 文本关联


证实聚类决策分组(尤其基于交易净头寸相关性的层次聚类)能有效降低噪声,提升AA策略的稳健性与绩效。

---

4. 估值分析(投资组合表现分析)



虽然报告不涉及传统DCF等企业估值模型,但其对投资组合风险调整收益的评估构成了估值分析的核心:
  • 采用收益率、Sharpe比率、最大回撤、Calmar比率四个财务风险收益指标,从全方位量化策略优劣。
  • 按策略类别比较(AA原始、CAA聚类平均、PEN惩罚、多聚类方法和阈值变化),揭示对交易风险组合收益的影响。
  • 发现层次聚类法对AA改进明显优于统计验证网络(SVN)聚类,理由在于层次聚类考虑了投资者风险敞口的相关性维度。


---

5. 风险因素评估



文章隐含的风险因素包括:
  • 专家(交易者)数量庞大且行为高度相似时,AA性能下降——即专家无差异增加噪声风险。
  • 市场环境和聚类动态变化带来的模型稳定性风险——如聚类分裂、合并导致元专家权重调整的不确定性。
  • 数据稀疏及交易者活跃度波动——影响统计检验的显著性、聚类的连贯性。
  • 投资策略及市场波动风险——尤其回测中大规模放大仓位会导致破产风险增大。


论文通过引入睡眠专家机制聚类化专家部分缓解数据活跃度变化带来的风险;通过层次聚类聚焦风险相关性降低噪声。

未见文中针对风险发生概率的定量评价,缓解方案偏技术层面,未涵盖宏观市场或行为异常风险。

---

6. 批判性视角与细微差别


  • 报告基于单一零售FX经纪商数据,样本来自特定市场,有潜在外部有效性限制,不同市场或机构政策可能导致聚类和AA表现差异。
  • Ewens分布拟合虽通过率高,但模型在实际应用中可能因极端事件、突发市场变化偏离理论分布,潜在稳定性风险。
  • 报告对SVN与层次聚类的比较不足深入,可能需要更多关于两者聚类质量对AA绩效具体影响的定量分析。
  • 聚类聚合策略在分裂合并时权重分配简单线性处理,未充分考虑市场结构动态非线性带来的复杂影响。
  • 睡眠专家扩展较好解决交易者流动性问题,但动态专家集导致算法收敛性质复杂,报告对算法收敛稳定性未深刻讨论。
  • 返回率超过100放大比例时破产风险明确提出,提示算法参数敏感性较高,实操需谨慎。


---

7. 结论性综合



本文通过对2万余名外汇交易者实际交易数据基于交易行为同步性的统计验证网络和Infomap方法聚类,深入探讨了投资者聚类的时间分布。
  • 聚类大小分布及演变整体符合Ewens采样分布建模,验证了Aoki等理论假设,且聚类结构随时间和时间窗口大小呈动态变化,短周期内多样性更高。
  • 采用经过Bonferroni修正的显著性测试建构SVN聚类网络,过滤孤立节点和无效链接,提升聚类可靠度
  • 聚类演进以流水线图直观表现聚类稳定性和动态变化,反映投资者策略持续演变和市场复杂性。
  • 结合在线专家建议预测框架中的AA算法,发现大量专家的交易噪声对传统AA性能构成挑战,提出两类聚类辅助改进:


1. 聚类决策规则(CAA):对普通鉴别专家的预测结果通过聚类均值或惩罚项再加权,显著提升策略的收益率和风险控制指标,层次聚类优于SVN。

2. 聚类元专家(Experts as Clusters,ECAA):视聚类为单元专家整个参与AA,虽SVN聚类效果不理想,但层次聚类在回撤和风险调整收益方面表现优异。
  • 实验中,CAA和ECAA均优于等权基准和原始AA,特别是在收益波动和最大回撤控制上表现突出。
  • 论文还通过理论导数解释了为什么针对专家集群而非单个专家的AA策略在存在“坏专家”大规模重复时可得更优界限。


整体来看,研究创新性地将投资者聚类和在线专家预测结合,理论与实证结合紧密,为金融机构优化交易风险组合管理和提升预测表现提供了实用方法。

---

图表与图片




---

参考文献



报告详细归纳了以往文献,从Tumminello等SVN方法,到Vovk等AA算法理论,全面涵盖了聚类识别、投资策略预测以及风险管理的前沿研究。

---

综上,此报告不仅系统展示了基于投资者交易行为的聚类时间演变特征,而且结合高级在线专家预测算法,验证了聚类辅助投资组合策略的显著效益,具有强烈的理论价值和应用意义。[page::0],[page::1],[page::2],[page::3],[page::4],[page::5],[page::6],[page::7],[page::8],[page::9],[page::10],[page::11],[page::12],[page::13],[page::14],[page::15],[page::16],[page::17],[page::19]

报告