`

Dynamic Link and Flow Prediction in Bank Transfer Networks

创建于 更新于

摘要

本报告提出了一种创新的模型同时预测动态网络中的链接存在与转账流量。模型通过结构嵌入、转账活动嵌入、分层softmax和总量预测机制,分别预测汇款比例和总汇款额,并将两者乘积作为最终预测值。实证结果基于日本银行转账数据和加密货币转账数据,显示模型在比例预测和链接形成/解散上取得优异表现,尽管总量预测仍面临挑战,尤其是节点活动稀疏时 [page::0][page::2][page::3][page::5][page::7][page::9]

速读内容

  • 研究背景与问题定义 [page::0][page::1]

- 动态网络中既要预测边的存在,又要预测边的权重(流量),传统方法难以处理大规模稀疏复杂网络。
- 本文重点关注大规模、稀疏且无标度特性的银行转账网络和加密货币转账网络。
  • 模型架构与方法创新 [page::2][page::5][page::6]


- 模型分两步:一是预测节点对间的汇款比例(使用TGAT深度学习架构结合自注意力机制和时间编码);二是预测节点总汇款金额(使用梯度提升树,基于过去三个月交易特征)。
- 使用DiGraphWave计算结构化节点嵌入,结合边的历史转账统计特征作为输入。
- 采用浅宽分层softmax树(最大深度3)提升汇款比例预测的性能,同时通过邻居采样和值滤策略提升计算效率。
  • 数据集与统计特征 [page::3][page::4]

| 指标 | Ethereum | Bank |
|------------------|---------|---------|
| 时间切片数 | 25 | 23 |
| 节点数 | 476 | 14,976 |
| 边数 | 20,612 | 11,878,442 |
| 平均稀疏度 | 0.0073 | 0.0046 |
| 边持续性平均值 | 0.4560 | 0.4991 |

- 两个数据集均呈现出度与权重的重尾分布,符合复杂网络特征。

  • 预测效果汇总及分析 [page::7][page::8][page::9]

- 汇款比例预测表现优异,模型优于基线EdgeBank和EdgeBank-time-windowed。
| 模型 | Ethereum(交叉熵损失) | Bank(交叉熵损失) |
|------------|--------------------|-----------------|
| EdgeBank | 5.213 | 3.577 |
| EdgeBank_tw| 13.677 | 6.430 |
| DLF-Flat | 3.694 | 3.489 |
| DLF-Hier | 3.431 | 3.480 |

- 汇款总量预测结果表现不一,模型在部分指标上胜出,但基线仍有竞争力,推测因部分节点活动稀疏且存在大幅度突发转账。
| 模型 | Eth(MAE) | Eth(MAPE) | Bank(MAE) | Bank(MAPE) |
|-----------------|----------|-----------|-----------------|------------|
| EdgeBank | 0.506 | 0.349 | 9.167×10^4 | 0.136 |
| EdgeBanktw | 0.571 | 0.716 | 5.093×10^4 | 0.351 |
| DLF-Flat(EB) | 0.507 | 0.347 | 5.826×10^4 | 0.136 |
| DLF-Flat(Pred) | 0.509 | 21.279 | 9.097×10^4 | 0.133 |
| DLF-Hier(EB) | 0.507 | 0.347 | 9.170×10^4 | 0.136 |
| DLF-Hier(Pred) | 0.509 | 21.652 | 9.098×10^4 | 0.132 |
  • 链接形成与解散预测性能 [page::9]

| 数据集(阈值) | 链接形成AUC | 链接解散AUC |
|--------------------------|------------|------------|
| Ethereum (0.0001) | 0.733 | - |
| Ethereum (0.001) | 0.834 | 0.826 |
| Bank (0.0001) | 0.652 | - |
| Bank (0.001) | 0.657 | - |

- 模型对边的形成和解散均显示出较强预测能力,优于随机基线,说明对网络动态的有效捕捉。
  • 量化策略总结 [page::5][page::6][page::7]

- 本报告提出的量化策略为动态链接流预测,主要通过分解任务预测"汇款比例"和"总汇款量",利用结合时间和结构信息的自注意力深度学习架构(TGAT)预测汇款比例,用梯度提升树预测总量。
- 采用浅宽分层softmax树提升汇款比例预测精度,使用邻居节点采样策略保证可扩展性。
- 回测结果显示模型在比例预测及链接动态预测上具有优势,部分总量预测指标仍需改进以覆盖活动稀疏性。

深度阅读

金融网络动态链路与流量预测研究报告详尽分析



---

1. 元数据与概览


  • 报告标题:Dynamic Link and Flow Prediction in Bank Transfer Networks

- 作者:Shu Takahashi、Kento Yamamoto、Shumpei Kobayashi、Ryoma Kondo与Ryohei Hisano
  • 发布机构:东京大学信息科学与技术研究生院、佳能全球研究所

- 发布时间:报告未显示明确日期,但研究引用文献发布至2024年,且引用了近期机器学习相关论文,推断为2023至2024年间最新成果
  • 研究主题:针对时间演变的银行转账网络动态链路和流量的预测,聚焦动态网络中“是否存在边”及“边权重”两重预测问题


核心论点
本研究提出了一种创新的模型,针对大规模、稀疏并且复杂的动态网络,能够同时预测链路是否存在及其权重(流量)。传统方法多仅能处理小规模或稠密网络,且通常只能单独预测链路存在或权重。本文通过拆分任务为“汇款比例预测”与“总汇款量预测”两个子任务,并结合自注意力机制和层次化softmax等技术,显著提升了预测准确率。模型在日本某大银行的银行转账数据和加密货币转账数据集(Ethereum)中均获得验证和良好表现。[page::0,1,2]

---

2. 逐节深度解读



2.1 引言与背景



报告首先指出,动态网络越来越被用于理解复杂系统的演变,如社会关系、大脑神经网络和公共交通网络等,已有相关研究实现了社交、神经乃至运输生态系统的动态建模([23,22,29])。在动态网络预测领域,动态链路预测(是否存在边)极为关键,但现有方法主要针对小、稠密网络,且忽略了边的持续存在性问题。此外,边权重(流量)的预测则更少涉及,虽然对于银行转账和贸易网络等真实系统至关重要([18,4,12])。已有机器学习研究关注边权重预测,但其多局限于已有边的流量插值,而非链路本身演变的预测(flow prediction与link prediction的区别)。本研究正聚焦于同时预测大规模复杂网络边的“存在”与“权重”,填补现有研究空白。[page::0,1,2]

2.2 相关工作综述


  • 动态链路预测:以TGAT模型为例,通过自注意力和时间编码结合时间-拓扑邻域特征,实现动态节点嵌入,适合动态链路预测([30])。另一思路为时序随机行走,建模网络演变([27])。但多数模型忽视边的持续连接性,简单基于边持久性(EdgeBank)预测往往优于深度模型([24])。

- 流量预测:关注已存在边权重的连续值预测,含流量守恒约束的图半监督方法([15])、基于双层优化的深度学习方法([25]),银行交易网络流量预测([6]),但未涉及未来网络的边生成预测。
  • 网络规模与特点:现有流量预测多针对小规模稠密网络,本文聚焦稀疏且大规模、规模无关(scale-free)复杂网络,强调二重预测——边存在性与边权重预测的必要。[page::1,2]


2.3 数据集介绍(第2章)


  • 日本某大型银行筹集的真实银行转账数据:囊括了两年(2019年4月至2021年2月)内活跃交易超过1000次的顶尖企业账户,共计近1.5万个节点,1千多万条转账边。

- 公开的以太坊加密货币交易数据(2018/4-2020/4),节点476,边约2万。
  • 网络结构统计:快照数25(月度),网络非常稀疏(稀疏度约0.0046-0.0073),平均边持久性约0.45-0.5。节点规模与边规模巨大差异,银行网络大规模且更加稀疏。

- 辅助分析:度分布和权重分布的累积分布函数显示两数据集均呈较显著的幂律分布(重尾)属性,说明高连接度节点和大流量边普遍存在但数量有限,符合大规模金融网络的自然特征,支持规模无关假设。[page::3,4]

2.4 模型设计(第3章)


  • 任务定义

给定过去月度的加权邻接矩阵序列 $A(1),\ldots,A(t-1)$,预测未来时刻 $t$ 的加权邻接矩阵 $A(t)$。
采用分解方法:
- $wi(t)$:第 $i$ 个节点在时刻 $t$ 的总汇款额(行和),
- $R
{ij}(t)$:第 $i$ 个节点汇款给节点 $j$ 的比例,即行内归一化权重。

模型分别预测 $w(t)$ 和 $R(t)$,最终相乘还原真实权重矩阵。
  • 预测汇款比例 $R(t)$ 的模型架构

基于TGAT的自注意力机制,结合时间编码函数 $\varPhi(t)=\cos(tw+b)$,将邻居节点的结构嵌入与边权重特征联合编码,捕捉时间序列中节点行为与网络拓扑信息。
节点嵌入输入采用DiGraphWave生成的结构特征。
通过层次化softmax树预测每行的汇款比例分布,采取浅宽树结构以缓解大类别数softmax的计算和误差传播问题(k-means聚类自适应构造层次结构)。
  • 预测总汇款量 $w(t)$ 模型

采用梯度提升树(GBDT),输入为各节点过去三个月的汇出额度、汇入额度、两者差异、环比变化等交易特征,模型学习预测下一时刻总汇款额。超参数设定为:学习率0.0001,估计器数2万,最大深度4,旨在避免过拟合。
  • 技术创新点

- 任务拆分为两步,分离比例预测与总额预测,显著简化模型设计。
- 结合Transformer自注意力处理时间序列,增强长时依赖建模能力。
- 层次softmax结构大幅优化类别高维下的效率和准确性。[page::2,5,6]

2.5 结果分析(第4章)


  • 预测任务与对比模型

- 比较对象包含EdgeBank(简单历史均值预测)、EdgeBank-time-windowed(最近一月数据)、以及本文提出的模型两版本:DLF-Flat(平面softmax)和DLF-Hier(层次softmax)。
- 评价指标:
- 汇款比例预测(Remittance Ratio)的损失采用“二元交叉熵”平均误差;
- 总汇款量预测采用均绝对误差(MAE)和均绝对百分比误差(MAPE)。
  • 汇款比例预测(表2)

- 本文模型明显优于基准方法,尤其是Ethereum数据集。
- 层次softmax相较平面softmax有轻微性能提升,证明层次结构有效减少预测难度。
  • 总汇款量预测(表3)

- 本文模型对银行数据(MAPE)优势明显,但总体表现参差,基于简单历史平均的EdgeBank在某些指标上表现甚至优于复杂方法。
- 主要困境在于账户活动不稳定,部分账户交易活动断断续续,导致特征弱且预测困难。图4显示实际数值和预测数值存在较大偏差,尤其对于过去活跃度低的节点,模型难以捕捉突发大额转账。未来模型需进一步复杂设计以应对这一现象。
  • 链路形成与消失预测(表4)

- 利用AUC-ROC指标评估,剔除持续存在的边(EdgeBank预测边),专注新链路形成和旧链路消失的预测能力。
- 结果表明本模型显著优于随机猜测(0.5基准),其中Ethereum数据集链路消失预测准确度高于链路形成,银行数据链路预测性能随着阈值提升而增强,表明模型对重要性质边的识别较为精准。
- 文献中普遍认为链路消失更难预测,但该结果有所不同,指出动态网络特性依赖具体数据与领域。 [page::6,7,8,9]

---

3. 图表深度解读



3.1 图1 - 模型结构流程图


  • 描述:整合历史网络快照信息并分别生成结构嵌入(DiGraphWave)和位置嵌入(TGAT)两类特征,分别用于预测汇款比例(通过层次softmax树)和预测汇款总额。最终将两者乘积生成下一时刻网络加权邻接矩阵行。

- 解读:模型设计体现了对“比例分布”与“规模大小”两方面的判别分解,避免了直接预测稀疏大规模加权图的复杂性。采用Transformer架构有效结合时间与拓扑邻域信息,并用浅宽的层次softmax替代传统多分类softmax,有利于计算优化和误差控制。
  • 联系文本:支撑第3章模型设计核心思路。



3.2 图2 & 图3 - 两数据集的度及权重分布CCDF


  • 描述:分别绘制Ethereum和Bank数据集汇总网络节点入度/出度,以及入权重/出权重的互补累积分布函数(CCDF),并拟合幂律分布。

- 解读:两数据集均显现重尾幂律特征,度分布幂律指数分别位于约2.1~2.8之间,权重分布幂律指数在1.5~1.7左右,刻画典型的规模无关特性,反映少数节点有极高度与流量占比,典型金融网络现象。
  • 联系文本:确认研究假设的动态金融转账网络遵循复杂网络属性,进一步支持模型设计针对稀疏大网络。




3.3 图4 - 预测与实际总汇款量对比(对数坐标)


  • 描述:在银行和Ethereum两数据集上,对各节点预测的总汇款金额与真实值做对数坐标散点图,期待点分布沿45度线(完美预测)。

- 解读:虽然大部分节点预测与真实值相关性较高(聚集在对角线附近),但对少数低频活跃节点(尤其银行数据集左侧)存在较大偏差,模型难以捕捉突发大量转账,表明基于历史区间特征的GBDT模型存在局限性。
  • 联系文本:辅助说明总汇款量预测难度及未来改进方向。



---

4. 估值分析



本报告主要为方法论和实验验证,未涉及财务估值相关内容,如企业价值/收益预测等,故不包含估值部分。

---

5. 风险因素评估



报告未明确单独章节分析风险,但文中隐含提及几个风险点:
  • 数据局限风险:银行数据中部分账户活动断续或大额转账突然发生,导致难以预测总汇款量。

- 模型泛化风险:复杂且大规模网络的高稀疏度与多变性使得模型训练存在计算和过拟合风险。
  • 边持续性偏倚:边的持续存在性会掩盖模型真实预测性能,故需剔除持久边以公平评估。

- 方法局限:当前模型对汇款比例预测优于总额预测,未来需加强总量预测稳健性。

报告尚未针对这些风险提供具体缓释手段,但展示通过混合历史频率与模型预测,应用多模型组合优化缓解边持续性影响的实践。[page::1,6,7]

---

6. 批判性视角与细微差别


  • 模型拆分优势与隐忧:将任务拆分为比例与总量预测有效简化困难,但可能未充分捕获流量与比例间的潜在关联,影响整体精度。

- 数据稀疏与活跃度波动:银行账户活跃度不稳定,导致总汇款量预测误差大,反映模型对稀疏且极端异动时间序列局限。未来需引入更主动式的时间序列建模(如异常检测、突发预测)。
  • 边持续性隐患:部分评估依赖剔除持续边,实际业务中持续边占较大比例,模型对突然新边和边消失预测挑战仍大,可能影响实用性。

- 预测指标单一:汇款比例用交叉熵,汇款量用MAE/MAPE评价,指标较传统,未来可考虑综合评价或风险敏感指标。
  • 实验数据范围限制:银行数据仅覆盖大型活跃账户,存在样本选择偏差,中小企业或低频用户未充分考虑。

- 文献引用充分且横跨领域,但未细述部分算法细节,令读者理解难度提升。

---

7. 结论性综合



本文提出了一种面向大规模稀疏银行转账网络的动态链路与流量预测模型,核心创新在于将加权邻接矩阵预测拆解为两步:汇款比例(概率分布)与总汇款量预测,并分别采用基于自注意力的TGAT变体和梯度提升树,辅以层次化softmax树缓解大规模类别预测难题。
  • 数据结构分析证明研究对象符合典型规模无关网络特征,支撑模型设计的网络复杂性假设。

- 实验结果显示模型在预测汇款比例任务中显著优于传统基线,特别是采用层次软max进一步提升性能。
  • 总汇款量预测表现不及汇款比例预测,面临活跃度稀疏和异常行为的挑战,表明该领域的预测难度及未来研究空间。

- 链路形成与消失两类任务实现较好区分预测,具有较强实际意义,尤其对金融网络结构动态监测重要。
  • 图表深度解读确认模型设计合理并体现预期优势,但也揭露了汇款总额预测的显著波动及误差。


总体上,本文模型成功实现了对银行转账网络动态链接及流量的联合预测,体现了动态网络深度学习与传统机器学习的融合优势,为金融大数据分析和风险控制提供了新工具和视角。[page::0-9]

---

报告关键词:动态网络、深度学习、银行转账网络、链路预测、流量预测、时间图、自注意力、层次Softmax

---

如需针对本文或图表的进一步细化解读,欢迎继续询问。

报告