`

FinML-Chain: A Blockchain-Integrated Dataset for Enhanced Financial Machine Learning

创建于 更新于

摘要

本报告提出了一个创新的区块链集成数据集和框架,结合高频链上数据与低频链下讨论数据,通过线性回归、深度神经网络、XGBoost及LSTM四种机器学习模型验证了其在以太坊交易费机制预测中的应用潜力,实现了从事后调整到主动调节的交易费机制创新[page::0][page::1][page::5][page::7]。

速读内容

  • 研究背景及问题定义 [page::0][page::1]:

- 传统金融机器学习面临数据透明度低、数据不及时、缺失和安全性差等问题。
- 提出利用区块链的透明性、不可篡改性和实时更新特性构建高频链上与低频链下数据融合的数据集。
  • 创新机制设计与研究目标 [page::1]:

- 以以太坊EIP-1559交易费机制为应用场景,现机制基于历史块调整底价,属于被动调节。
- 目标通过机器学习精准预测未来区块gas使用量,实现交易费用从事后被动调整向事前主动调控转变。
  • 数据集构成及数据源 [page::3]:

- 链上数据包括时间戳、gas限额、gas使用量、底价等特征,基于Google BigQuery抽取Ethereum主链数据。
- 链下数据选取Discord中Binance、Uniswap和Ethereum开发者社区的讨论文本,利用FinBert模型进行情感分析。
  • 机器学习方法和模型验证 [page::4][page::5][page::6][page::7]:

- 应用线性回归、DNN、XGBoost和LSTM模型进行预测,DNN模型在大多数实验中表现最佳,尤其在10步时间序列回溯时效果显著。
- 引入神经加法模型(NAM)针对$\alpha$特征施加弱对偶单调性约束,提高模型透明度和可解释性。
- 运用FinBert情感分析结果作为辅助输入源,略微提升模型预测准确度,尤其在波动剧烈的空投期间表现较优。


  • 单调性约束实施流程及效果 [page::7]:

- 两步训练过程,第一步标准训练,第二步加入单调性约束,保证模型输出随近期特征变化更敏感,满足透明度需求。
- 约束对模型损失影响较小,提升了DNN的解释性。



  • 情感辅助模型表现及数据兼容性 [page::8]:

- 融入小时和日均情感值对预测有辅助提升但影响有限,提示需对文本数据筛选进一步优化。
- 不同时间窗长度($k=1,2,3$)均显示出合理的模型稳健性。

| 时间段 | 模型配置 | 3步时序 | 2步时序 | 1步时序 |
|--------|-------------------------|---------|---------|---------|
| ARB空投期 (03/21-04/01) | +OC,+DS,+HS | 0.10022 | 0.10056 | 0.10169 |
| " " | +OC,+DS,-HS | 0.10150 | 0.10249 | 0.10190 |
| " " | +OC,-DS,+HS | 0.10164 | 0.10213 | 0.10204 |
| " " | +OC,-DS,-HS (仅链上数据) | 0.10201 | 0.10265 | 0.10290 |
| 普通期 (06/01-07/01) | +OC,+DS,+HS | 0.13341 | 0.13477 | 0.13593 |
| " " | +OC,+DS,-HS | 0.15657 | 0.15381 | 0.15321 |
| " " | +OC,-DS,+HS | 0.16142 | 0.15806 | 0.15459 |
| " " | +OC,-DS,-HS (仅链上数据) | 0.16089 | 0.16456 | 0.18428 |

- 注:“OC”为链上特征,“DS”为日均情感,“HS”为小时均情感,数值为测试集均方误差 (MSE) [page::8]
  • 框架和数据集贡献与开放性 [page::1][page::7]:

- 创新地设计了可扩展且模块化的数据融合框架,支持持续更新和多任务研究。
- 完全开源数据和代码以促进学术社区协作和复现,推动区块链与金融机器学习交叉领域发展。

深度阅读

一、元数据与概览



报告标题:
FinML-Chain: A Blockchain-Integrated Dataset for Enhanced Financial Machine Learning

作者及机构:
Jingfeng Chen†, Wanlin Deng†, Dangxing Chen\*, Luyao Zhang
Duke Kunshan University, 苏州,中国

发布时间与研究主题:
最新区块链与金融机器学习结合的数据集与框架研究,聚焦于以太坊交易费用机制(EIP-1559)及其预测模型设计。

核心论点与贡献:
  • 本文不仅提出了一个数据集,而是一个创新的框架,整合了高频次链上(on-chain)数据与低频次链下(off-chain)数据,并为金融机器学习提供新的基准。

- 以以太坊交易费用机制(TFM)尤其是EIP-1559机制为研究场景,通过机器学习模型实现从事后调节向主动预测调节的转型。
  • 提供开源数据和管道代码,促进社区的复制、扩展和合作。

- 使用线性回归、深度神经网络(DNN)、XGBoost 和长短期记忆网络(LSTM)四种模型验证框架有效性。

总体目标是推动区块链与金融机器学习的跨学科发展,提高交易费用机制的预测准确性与机制设计的灵活性。[page::0,1,7]

---

二、逐节深度解读



1. 摘要与引言(Abstract & Introduction)


  • 动机:传统金融机器学习面临数据缺失、透明度不足、更新不及时、多源数据不兼容等严峻问题,造成预测模型可靠性下降。

- 区块链优势:作为分布式账本,其透明性、不变性和实时更新能力解决上述问题,确保数据的安全与真实性。
  • 数据集框架:结合链上高频交易数据和链下社交媒体(Discord)数据,捕捉多模态信息,为经济机制设计创新提供了基准。

- 研究问题:本数据集是否能支持多机器学习模型用于创新金融问题的研究?
  • 数据规模:discord数据80.4MB,链上数据分别4.92MB和13.4MB。框架支持持续更新与扩展。[page::0]


2. 交易费用机制与研究背景(Section I-A)


  • Ethereum EIP-1559介绍:2021年以太坊升级引入EIP-1559,将交易费用拆分为基础费(base fee)和优先费(priority fee),基础费基于前一块的gas消耗量采用马尔科夫过程计算并动态调整。

- 机制缺陷:当前机制属被动调整,仅能基于已发生交易调整未来费用,缺乏预测能力,无法主动控制区块gas消耗。
  • 研究创新点:引入机器学习实现精准预测未来交易gas需求,从而主动调整基础费,提高机制灵活性和效率。

- 本文选取EIP-1559作为测试场景,验证所构建数据集的预测能力。[page::1]

3. 研究方法与贡献(Section I-B)


  • 数据集验证:对gas使用预测分别采用线性回归、深度神经网络(DNN)、XGBoost和LSTM四种方法进行实验,验证数据集对复杂预测模型的适用性。

- 多任务学习能力探索:引入单调性约束以及基于金融领域优化的FinBERT模型,评估数据集多模态、多任务处理能力。
  • 框架创新性:本框架实现了高频率、可验证、可扩展数据集的模块化生成,远超传统数据集的静态和单一等级。

- 开源:完整数据集及预测管道开源,促进研究社区进一步扩展和应用。[page::1]

4. 相关工作(Section II)


  • 区块链在数据安全、透明和防篡改方面的成功应用(如医疗、游戏、物联网等)。

- 学术界相关文献多关注区块链性能、隐私保护、查询优化等技术层面,缺乏金融市场相关链上链下混合数据集的应用。
  • 现有区块链数据集在规模和综合性上均不及本研究,且研究焦点普遍不同,突出本报告的创新性与独特性。[page::1,3,4]


5. 数据组成(Section III)


  • 链上数据:以太坊Layer 1,包括时间戳、区块高度、交易量等,但保留重点特征—时间戳、gas limit、gas used与base fee。

- 两个分析时间段划分:2023年3月21日至4月1日的ARB代币空投期间(区块量78,290),以及6月1日至7月1日的非空投“正常”期间(区块量213,244),便于分析重大事件对交易费用的影响。
  • 链下数据:Discord中币安、Uniswap和以太坊开发者社区的讨论文本。使用开源DiscordChatExporter获取,然针对内容进行自然语言处理以提取情感指标。

- 重要性:Discord数据更专注加密领域,替代因Twitter API限制而受限的数据来源,丰富了模型对交易行为的辅助预测信息。[page::3]

6. 验证方法(Section IV)


  • 变量选择:

- 目标变量y为归一化后的gas使用量,表达式为$y = \frac{\text{gas used} - \text{gas target}}{\text{gas target}}$,范围[-1,1],衡量实际用量相对目标用量的偏差。
- 特征变量X包含$\alpha$与$\beta$,其中$\alpha = \frac{\text{gas used}}{\text{gas limit}}$,$\beta = \text{base fee}$,历史数据长度参数k(1~3)用以评估模型对于历史数据窗口的敏感性。
- 情感指标$\gamma$通过FinBert处理Discord文本获得,按小时和天平均后同步入训练数据。
  • 模型选用:

- 神经加性模型(NAM):对每个特征建独立神经网络,提高模型可解释性和可控性,允许添加单调性约束。
- 单调性约束设计:提升模型透明度,防止黑盒模型带来的预测风险,保证近期数据影响较远期数据更大,符合实际业务逻辑。
- FinBert模型用于财经文本情感分析,确保情感信号准确提取。[page::4]

7. 实验结果(Section V)



7.1 普通模型实验


  • 在ARB空投和正常两期均测试线性回归、DNN、XGBoost和LSTM。

- DNN表现最佳:23/24组合中均优于其他方法,尤其是10步长历史窗口结合$\alpha$和$\beta$变量效果最佳。
  • 非空投期间总体误差有所上升,DNN的鲁棒性更强,表现稳定;其它模型误差和方差上升明显。

- 图6展示误差与方差趋势,DNN模型错误最小且稳定,成为后续实验基础。[page::6]

7.2 单调性约束实验


  • 利用NAM模型,两步训练策略先进行标准训练再施加单调性约束,主要针对$\alpha$变量。

- 当历史窗口k<=3时,约束能够被满足且训练误差无明显恶化,k>=4则难以满足所有约束。
  • 对比图7显示加单调性后模型输出依然紧贴真实数据,增强透明度和可信度。

- 这一设计响应了金融监管对模型可解释性的需求,为DNN基预测模型提供了合规保障。[page::6,7]

7.3 情感变量实验


  • 在NAM模型基础上增加Discord情感指标$\gamma$,并结合小时均值与天均值情绪得分进行多配置测试。

- 观察到情感引入对准确率有轻微提升,尤其在活动频繁、市场波动大的空投期效果更佳。
  • 情感数据多以小时级存储,块时间12秒导致多个块共享同一情感值,对长时间步长需求有所减少。

- 总体而言,情绪数据效果有限,但表明多模态信息融合具潜力,未来可通过文本过滤等方法提升其预测贡献。[page::7,8]

---

三、图表深度解读



图1:解决数据透明性与多源兼容性的框架流程图(Page 2)


  • 描述:展示了传统金融机器学习面临的数据问题及本文提出的由链上与链下数据组成的混合数据集框架流程。并指明了两大贡献点:创新交易费用机制研究场景和金融问题解决。

- 解读:框架明确区分链上数据(以太坊交易数据)与链下数据(Discord讨论),强调数据的可追溯性和多模态信息价值,支撑后续机器学习方法的应用及多任务处理能力。
  • 该图为整体设计的直观呈现,体现研究如何结合技术以克服传统困难。[page::2]


图2:Token airdrop期间各模型误差与方差对比(Page 6)


  • 描述:两幅子图分别展示在空投期间不同历史步长k下,线性回归、DNN、XGBoost、LSTM等模型的平均损失(Avg_loss)与方差(Variance)表现。

- 解读:
- DNN无论在误差还是方差上均保持最低,与基线线性回归及其他模型相比优势明显。
- 增加历史步长k显著降低误差和波动,表明利用更长历史信息提升预测稳定性。
- 结合$\alpha$和$\beta$变量(绿色和紫色线)较单独$\alpha$变量表现更好,体现基础费用对预测的补充作用。
  • 该图支持作者论点:多变量与深度模型优于传统方法,数据集有效支撑复杂模型训练。[page::6]


图3:正常非空投期间模型误差与方差对比(Page 6)


  • 描述:与图2结构相同,针对稳定市场环境下机器学习模型表现的对比。

- 解读:
- 整体误差水准上升,但模型间的相对表现维持不变,DNN依然表现最好。
- XGBoost与LSTM误差与方差明显上升,显示其对波动性降低的敏感。
  • 证明数据集在不同市场条件下均适用,但表现因环境差异而异。[page::6]


图4:两步骤训练损失变化(Page 7)


  • 描述:训练中第一步(无单调约束)和第二步(加约束)损失随Epoch的变化。

- 解读:加单调性约束阶段损失维持低水平,无明显上升,说明约束未对模型拟合造成负面影响。
  • 支撑单调性约束方法的实际可行性与有效性。[page::7]


图5、6和7:加与不加单调性后的预测对比(Page 7)


  • 描述:三张图分别展示无单调性、加单调性后的气体用量预测曲线与真实值对比。

- 解读:加单调性后模型曲线与真实值匹配度类似,但增加了解释性,使对近期特征的响应更符合预期。
  • 视觉证实单调约束带来透明性提高,且不牺牲预测精度。

- 图7以NAM模型形式再次验证该结论。[page::7]

图8及表2:加入情感变量的预测效果(Page 8)


  • 描述:图8呈现分别有无情感数据输入的预测对比。表2给出不同情感数据(小时均值HS,日均值DS)组合与历史步长k对MSE的影响。

- 解读:
- 图8显示情感加持的预测曲线更平滑且更接近真实数据,尤其在较短数据段上差异显著。
- 表2数值佐证情感信息对预测误差有小幅优化,尤其在空投波动大期。
- 在稳定期情感变量贡献相对较小,显示当前情绪数据取样与清理仍需优化。
  • 说明数据集支持情感等多模态信息融合,拓展潜力大。[page::8]


---

四、估值分析



本报告主要侧重于数据集构建与机器学习预测模型的框架设计,并未进行公司或资产的直接估值。所提出的创新在于推动交易费用机制从被动调整转向主动预测,提升区块链经济机制效率。使用多种机器学习模型对基于EIP-1559的交易费用进行动态预测,是对估值问题的替代方法。板块价值的提升体现在通过更精确预测实现资源分配优化及用户成本降低。

其中,单调性约束和解释性模型(如NAM)的引入,增强了模型在金融监管环境中的适用性和可信赖性,为将来构建更复杂的机制设计模型提供基础。

---

五、风险因素评估



报告未专项设立风险章节,但隐含风险及其权衡主要包含:
  • 数据质量风险:链下数据(Discord讨论)可能包含噪声和无关信息,情感分析准确性受限,影响模型预测能力。已提出通过优化过滤方法减轻。

- 模型风险:黑盒模型在金融运用中存在“不可解释风险”。通过单调性约束和NAM模型部分解决,但仍需谨慎推广。
  • 时间窗口限制:历史步长过长难以满足单调性约束及保证模型性能,可能限制预测范围。

- 外部事件影响:如大规模空投等特殊事件对交易行为的冲击可能导致模型性能下降,需要考虑事件驱动的模型稳定性和适应性。
  • 机制设计风险:过度依赖模型预测进行主动基费调整,若模型预测不准确,可能导致拥堵或资源浪费。透明性和可解释性有助缓解该风险。


总体风险识别充分,且针对某些风险已提出对应缓解策略,但实际金融应用中仍需持续监控和验证。

---

六、批判性视角与细微差别


  • 创新性强但对比有限:作者强调数据集非传统基准,难用已有数据集进行直接对比,可能让评估难度加大。

- 情感数据影响有限:目前情绪变量提升幅度不大,显示多模态融合潜力尚未完全发挥,未来工程需要加强。
  • 单调性约束实施难度:随着历史步长增大,单调性约束难以满足,限制了模型对长时间依赖的捕捉能力。

- 对EIP-1559机制改善预期较高:报告假设主动预测一定优于被动调整,然而模型实际运行中预测误差仍存在,需进一步研究和验证机制集成效果。
  • 外部变量未全面考虑:宏观经济因素、监管变动等对交易费用的影响未被纳入模型,可能影响泛化能力。


这些细节均为后续研究打开空间,也提醒审慎应用时需关注的限制条件。

---

七、结论性综合



本文提出了FinML-Chain,一套创新的区块链集成数据集及框架,旨在推动金融机器学习特别是对以太坊交易费用机制的预测与优化。通过融合链上高频交易数据和链下社交媒体情感信息,构建多模态、模块化、可持续更新的数据集,显著提升了数据透明度、可靠性和实时性。基于此数据,作者采用线性回归、DNN、XGBoost和LSTM等多模型验证,证实数据能支持高精度的未来区块gas使用量预测,尤其DNN性能卓越。

单调性约束和NAM模型的加入解决了模型可解释性问题,满足金融场景对透明度的需求,安全促进了主动化、动态的交易费用机制设计。情感分析作为辅助变量虽效果有限,但展现了多样数据融合潜力。重大事件——如ARB代币空投对交易费动态的显著影响——也被数据及模型成功捕获,体现数据集的实用价值。

图表全面展示了预测误差对比、模型训练过程及单调性约束的落实,清晰展示了技术路线与验证效果。附带的开源数据及代码资源为研究社区提供了宝贵贡献,奠定了区块链金融机器学习研究的基础。

综上,报告不仅在数据集构建层面实现质的跨越,也在机器学习模型设计与机制优化领域开辟了新路径,展现了区块链与金融科技融合的未来趋势,是重要且富有前瞻性的贡献。[page::0-8]

---

致谢



本研究得到中国国家自然科学基金及Duke Kunshan大学支持,为跨领域合作提供坚实保障。[page::8]

---

总结



本报告通过详尽的数据采集、模型设计和实验验证,还原了一个结合区块链技术与金融机器学习的创新路径。它不仅解决了传统金融数据的缺陷,还通过机器学习技术推动机制设计的智能化与主动化。丰富的图表和模型分析验证了框架与数据集的适用性和优越性,为未来区块链经济模型提供了坚实的实证基础。

报告