`

Modelling financial volume curves with hierarchical Poisson processes

创建于 更新于

摘要

本报告提出基于层次狄利克雷过程的层次泊松过程模型,联合建模多只股票多天的交易量曲线,实现金融交易量曲线的非参数贝叶斯建模。采用MCMC采样结合切片采样高效推断模型,兼顾平滑性与多层聚类结构,适用于不同流动性股票交易数据,展示了该方法在苹果、iRobot和Papa John’s Pizza等股票上的表现,有效捕获日内交易时间强度与成交量分布的异质性和共享结构 [page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7][page::8][page::9][page::10][page::11][page::12][page::13][page::14][page::15][page::16][page::17][page::18]

速读内容

  • 研究背景与动机 [page::0][page::1]:

- 交易量曲线是描述金融产品在交易日内成交量时间分布的跳跃过程,有助于交易执行策略优化。
- 采用非齐次泊松过程模型及标记泊松过程,对交易时间与交易量联合建模。
  • 数据集与可视化分析 [page::1][page::2][page::3][page::4]:


- 包含三只股票:大盘股AAPL,中盘股IRBT及小盘股PZZA,数据为2013年1月每只股票21个交易日内的交易记录。
- 交易量曲线以步进函数形式展示,不同股票表现出流动性差异,如AAPL交易频次高,曲线平滑,PZZA则交易不频繁,曲线呈现更多跳跃。
- 交易时间呈现不同日内分布,AAPL上午活跃,PZZA多集中于尾盘,交易量多为单笔一手交易,比例高达80-90%。
  • 模型构建细节 [page::4][page::5][page::6][page::7][page::8][page::9][page::10][page::11]:

- 单日交易时间建模为具有beta混合分布强度函数的非齐次泊松过程,使用Dirichlet过程非参数混合模型描述。
- 交易量作为跳跃的标记,建模为零截断负二项分布以增加鲁棒性。
- 多日交易数据通过层次Dirichlet过程实现层次泊松过程模型,捕获单日及多日间的共享结构。
  • MCMC推断与切片采样算法 [page::9][page::10][page::11][page::12]:

- 利用切片采样技术,辅助变量截断无穷混合,有效限制计算复杂度。
- 采用类餐馆加盟隐喻高效并行采样混合组件及其权重。
- 算法轮廓及采样步骤详尽,保证推断的收敛和可扩展性。
  • 实验结果展示 [page::12][page::13][page::14][page::15][page::17][page::18]:


- 不同股票和交易日混合组件数量及密度差异明显,反映流动性与交易行为的多样性。
- 图6和7显示混合组件参数(beta分布和负二项分布参数)后验分布,AAPL参数分布更集中,规模较小股票参数分布更宽松。
  • 模型优势与扩展 [page::16]:

- 模型能够平滑拟合日内交易强度曲线,且支持多层次聚类扩展,例如行业、市场细分层次。
- 切片采样推断对大规模数据表现出良好的计算效率。
- 建议后续可结合Hamiltonian Monte Carlo等策略提升参数采样效率和链混合速度。

深度阅读

金融研究报告深度分析报告


报告标题:《Modelling financial volume curves with hierarchical Poisson processes》
作者:Creighton Heaukulani, Abhinav Pandey, Lancelot F. James
发布机构:新加坡及香港科技大学ISOM系
发布时间:未知,报告内时间点多为2013年交易数据
研究主题:基于分层Poisson过程的金融交易量曲线建模方法,重点涉及股票交易量曲线的统计生成模型及其贝叶斯非参数推断技术

---

一、元数据与报告概览



本报告针对“金融交易量曲线”建模问题提出了创新的统计方法,针对日内股票交易过程的交易时间和交易量的分布特征,基于贝叶斯非参数技术构建了分层泊松过程(hierarchical Poisson process)模型。报告重点介绍了模型的数学构造、推断算法(MCMC结合slice sampling技术)、数据描述与实证验证。

核心贡献及信息点包括:
  • 提出利用分层Dirichlet过程耦合多个交易日、多支股票的泊松交易时间过程。

- 结合贝叶斯非参数混合模型,通过beta分布混合描述交易时点分布,负二项分布描述交易量(即标记Poisson过程)。
  • 设计高效MCMC推断算法,保证算法可扩展性,适用于大数据高频交易场景。

- 实证应用于NASDAQ三类典型股票(苹果AAPL、中型股IRBT、小型股PZZA)数据,验证模型适用性和性能。

---

二、逐章深度解读



1. 引言与数据



1.1 研究动机与背景:
交易量曲线描述某一金融工具(股票、债券、ETF等)在一天内的交易次数和交易量,是市场交易行为的细粒度表现。建模该曲线是优化算法交易执行策略的基石,如依据预期交易量分布分散买入卖出,减少价格冲击。交易量曲线视为带跳跃的过程,跳跃点为交易时刻,跳跃幅度为交易量。经典跳跃过程建模选用非齐次Poisson过程(Kingman,1993),本研究沿用这种思路。

1.2 与现有工作的关联与创新点:
此前Taddy和Kottas(2012)借助Beta混合模型建构标记Poisson过程,本报告将其推广到多日、多支股票数据,通过分层Dirichlet过程将不同日交易时间点模型联合起来,实现交易日之间的统计信息共享,形成“分层泊松过程”模型结构。此外,报告中还讨论了与Log Gaussian Cox过程及其他Gaussian过程基础模型的区别和优势。

---

2. 数据描述(1.1 & 1.2节)



报告利用Wharton Research Data Services提供的NASDAQ市场2013年1月的交易数据,剔除盘前盘后和零股交易,数据精度为秒,进一步模拟生成更高时间分辨率(微秒级)。选取3支股票:
  • AAPL:大盘股,交易频率极高,例如21天内交易量超过220万单,单日交易平均10万余次。

- IRBT:中盘股,交易量明显降低。
  • PZZA:小盘股,交易量最少。


数据可视化显示为每一交易日的累计交易量(以“手”,100股为1手)与累计交易笔数的阶梯函数。不同股票间交易曲线平滑度差异显著,大盘股曲线更平滑,说明交易行为更频繁且连续[page::0,1,2]。

核密度估计(图2a,2c,2e)显示交易密度的时间分布,包含明显的市场开盘高峰及收盘前交易活跃差异,AAPL集中早盘,PZZA集中收盘前。交易量的箱线图(图2b,2d,2f)显示大量交易为单手,长尾分布,重尾程度随流动性递减而增加,凸显模型重点在交易时间建模上[page::3,4]。

---

3. 模型方法论及数学建模(章节2)



3.1 单日交易时间建模(2.1)
  • 交易时间点被视为空间区间(0,1)内的跳跃点,模型为Poisson点过程,强度函数为非齐次函数 \(\lambdad(t)\),引入累积强度 \(\Lambdad\)。

- 基于Dirichlet过程的贝叶斯非参数混合模型,使用Beta分布构建强度函数的密度函数 \(fd(t)\),权重服从Stick-breaking产生的随机测度。
  • 具体来说,\(\lambdad(t) = \Lambdad \int \mathrm{beta}(t;\alpha,\beta) dGd(\alpha,\beta)\),其中\(Gd\sim \mathrm{DP}(\gammad,H)\) 为随机测度,H为Beta分布参数的先验。

- 关键在于利用DP赋予模型高度灵活性,可自动增加复杂度,拟合非平稳的交易时间分布,且日间间强度函数可独立或耦合建模[page::4,5]。

3.2 标记Poisson过程及交易量建模(2.2)
  • 交易量(跳跃幅度)作为标记变量附加于跳跃时间点,建立联合分布。

- 选用复合分布 \(\phid(t,q)\),交易时间仍由Beta混合,交易量由经过参数化的负二项分布 \(\kappa(q;\thetaq)\) 体现,满足正整数特性。
  • 负二项分布参数 \(\thetaq = (r,\tau)\),其中\(\tau\)基于概率的个性化定义(赔率比),统计上更稳定。

- 此方法建立了基于交易时间与交易数量的联合模型,有效捕获成交数量的过度离散(overdispersion)现象。
  • 利用DP模型共享参数,使时间与数量建模相互关联,同时灵活表达数据异质性[page::6,7]。


3.3 多日交易数据的耦合建模(2.3)
  • 直接对每个交易日独立建模存在缺陷,忽略日间共享结构,故引入Hierarchical Dirichlet Process (HDP) 以耦合不同天的交易分布。

- HDP构造:
- 全局基准\(\mathrm{DP}(\gamma
0,H)\)生成共享的全局混合组件。
- 每日的测度\(Gd|\ G0 \sim\mathrm{DP}(\gammad,G0)\),通过局部DP采样,保证每日模型参数可共享全局基础结构。
  • 结构可天然扩展到更高层次聚合(股票、行业分层),允许刻画不同市场层面的统计特征。

- 这种结构可产生适合异质性又兼顾共享信息的交易模型[page::8,9]。

---

4. 推断方法(章节3)


  • 由于模型中DP的无限维性,基于Stick-breaking和HDP抽象的复杂性,设计高效的MCMC推断算法至关重要。

- 该报告采用Slice sampling技术结合Chinese restaurant franchise隐喻解决了混合成分无限性带来的计算瓶颈。
  • 算法的关键创新点是设计辅助变量(辅助统一分布的slice变量)以动态截断混合成分空间,使每次MCMC迭代只需考虑有限集合,提升计算效率和采样效果。

- 算法还设计局部权重和全局权重的采样步骤,支持同时对局部(每餐厅)和全局(所有餐厅)混合权重进行调整,兼顾了信息共享和个性化拟合。
  • 并行更新指标变量(表、菜品) 抑制标量Gibbs采样的瓶颈,保证适应超大规模数据集。

- 算法步骤详尽列出,包括初始化、指标变量采样、参数更新、增加新成分等,确保收敛可靠[page::9,10,11,12]。

---

5. 实证结果(章节4)


  • 以MAP方式对不同股票某一天的交易时间混合组件函数及整体强度函数进行可视化展示(图3)。

- 结果显示,大盘股AAPL有更多且分布均匀的Beta成分组合,强度函数曲线更平滑;中盘股IRBT强度函数较为粗糙且分布不均;小盘股PZZA具有较少但权重不均的混合成分,表现出交易活动分布的更多不均匀性。
  • 由此验证了模型能够捕捉不同流动性股票交易时间模式的差异。

- 采样过程的Trace plots(图4)与成分数分布(图5)揭示模型推断的动态性与社会稳定性,说明模型自动学习了合适复杂度且可区分不同股票特征。
  • 混合成分参数(Beta分布的\(\alpha,\beta\)及负二项分布的\(r,\tau\))的后验分布可视化(图6、7)进一步证明:

- 流动性丰富的AAPL,参数后验分布更为尖锐,表明推断更为确定。
- 低流动性股票参数后验更分散,反映较大不确定性和异质性。
  • 总体上,模型能够成功捕获和区分不同股票交易行为的统计特性[page::12,13,14,15,17,18]。


---

三、重要图表深度解读



图1(交易量曲线和交易笔数曲线)[page::2]:
展示三支股票在21个交易日内的累计交易量和累计交易次数。AAPL曲线平滑,更频繁(高流动性),细节丰富;IRBT、PZZA则间断明显,后者流动性最低,波动大。两者差异体现出流动性对交易行为模式的主导影响。

图2(交易时间和交易量的核密度估计与箱线图)[page::3,4]:
通过平滑直方图展示交易时间分布的变化趋势,验证不同股票不同交易时段的活跃度。箱线图呈现交易量大小分布,单手交易占比较大,尾部分布随股票流动性变化,重尾现象明显。提示模型重点建模交易时间强度函数。

表1(数据集统计)[page::4]:
统计指标展示了交易总量、日均交易量、最活跃和最少活跃日的交易量、以及单手交易占比,数字化清晰体现了不同股票流动性等级。AAPL的交易总量数倍于IRBT,后者3.2倍于PZZA。单手交易占高位,支持选择负二项分布为交易量模型的合理性。

图3(混合成分与强度函数示意)[page::13]:
对混合Beta分布成分加权示意及强度函数平滑线与交易时间直方图的对比,展示模型在实际交易日中的具象化效果。色彩和权重表现出各个混合成分在对应日期交易时间分布中的贡献,应对不同流水级别股票表现差异性。

图4、5(推断过程中混合成分数目变化及分布)[page::14,15]:
以trace plot和样本分布图表形式观察模型动态调整混合组件个数,体现了模型随数据复杂程度自动调节能力。表现出不同股票在交易日间成分复杂度的差异,AAPL日内变化最小,IRBT变化最大。

图6、7(混合成分及交易量参数后验分布)[page::17,18]:
显示每个成分的Beta参数(\(\alpha,\beta\))及负二项参数(\(r,\tau\))的后验分布,呈现构成交易时间和量分布的基础统计特征及其不确定性。AAPL的参数分布更尖锐,流动性强,数据拟合程度高;PZZA表现更宽泛不确定,符合金融市场的流动性理论。

---

四、估值分析



本研究侧重方法建模和推断,未涉及资产估值或盈利预测相关估值模型,因此无相关内容可述。

---

五、风险因素评估



报告未像传统金融报告那样系统列出风险因素,但从模型和数据来看,可以推断潜在风险及影响:
  • 数据质量风险: 使用的交易时间为秒级数据,做了一定微秒插值模拟,真实市场交易可能存在更复杂时序特征,模型对数据分辨率敏感。

- 模型假设风险: 假定交易时间点为标记的Poisson过程,交易量服从负二项分布,实际市场可能出现非Poisson、依赖性结构,可能影响模型准确性。
  • 算法收敛风险: MCMC算法依赖slice sampling,存在收敛慢、混合不足的风险,尤其在超大规模数据时。

- 层次结构泛化风险: 虽然模型支持多层次扩展,实际应用时对更高层级聚合(如行业)的适用性和性能尚未验证。
  • 流动性差异影响: 内部流动性差异大,导致模型参数估计不均匀,可能无法有效捕捉极端情况。


报告未明确给出对应缓解策略,但通过MCMC混合监控和层次设计已隐含一定风险控制手段。

---

六、批判性视角与细微差别


  • 报告无评级和目标价,仅提供方法论和数据应用。

- 数据限制明显,秒级采样与模拟微秒时间造成真实市场行为的潜在失真。
  • 交易量分布极度偏斜,模型重点放在交易时点建模,交易量模型选择较传统,可能无法完全捕捉极端大订单。

- 模型基于无记忆、独立点过程假设,金融市场中的自激励行为和价格-量互动未包含,限制解释深度。
  • MCMC算法虽做了性能优化,但未明确大数据集执行时间及资源消耗细节。

- 模型层次结构扩展规划尚处于概念层面,缺乏相关实证检验和效果展现。
  • 文中不同地方对DP及HDP的描述较为重复,若能归纳总结会更紧凑。


---

七、结论性综合



本报告提出的分层泊松过程模型为金融市场中日内交易量曲线的统计建模提供了灵活有效的贝叶斯非参数框架。通过运用Dirichlet过程混合模型,结合Beta分布和负二项分布分别刻画交易时间和交易量的特征,并借助Hierarchical Dirichlet Process实现跨交易日信息的统计共享,捕获市场行为的多层次结构。精心设计的MCMC推断算法发挥了slice sampling机制优势,保证模型可扩展性及推断效率。

详尽的数据描述和实证分析支持模型在不同流动性股票上的适用性,揭示了交易时间模式及交易量分布的异质性。图表分析明晰展示了模型成分权重分布、强度函数拟合、以及参数后验的差异性,佐证模型对金融交易数据的表达能力。

该模型及算法具备广泛应用潜力,不仅限于金融领域,适合任何由多组标记Poisson时间序列构成的复杂数据建模。未来进一步延伸模型层次结构,结合更丰富市场信息,将有助于提升市场微观结构理解和交易优化决策能力。

---

图片展示



图1: 不同流动性股票的交易量和交易次数累计阶梯曲线


图2: 交易时间核密度与交易量箱线图


图3: 不同股票样本日的Beta混合组件和对应强度函数


图4: PZZA推断过程中混合成分数目Trace Plot


图5: 不同股票的全局和局部混合成分数分布


图6: Beta分布参数\(\alpha\), \(\beta\)后验分布


图7: 交易量分布参数\(r,\tau\)后验分布


---

#### 全文溯源页码:[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18]

报告