FinSurvival: A Suite of Large Scale Survival Modeling Tasks from Finance
创建于 更新于
摘要
本论文发布了FinSurvival,一个基于去中心化金融(DeFi)平台Aave的大规模生存分析任务集合,含16个不同交易事件对,总计近770万条记录与128维特征。通过时间到事件建模和基于限制均生存时间(RMST)的分类任务,比较了多种传统及深度学习生存模型与分类模型的表现,揭示了DeFi数据的高维、强删失特点及模型建模难度,XGBoost和AFT表现最佳,深度学习尚有提升空间,提供了金融领域生存分析模型的新基准 [page::0][page::1][page::5][page::8][page::9][page::13]。
速读内容
FinSurvival数据集概况 [page::1][page::2][page::7]
- 基于去中心化金融平台Aave的以太坊链上交易,覆盖2020年11月至2024年9月。
- 共16个指数事件与结果事件组合的生存时间预测任务,涉及借款、存款、还款、提现和清算。
- 记录总数约7,698,497,平均每个任务约481,000条,特征维度128。
- 平均删失率超过80%,高维复杂金融行为数据具挑战性。
- 时间序列切分训练测试集,使用限制均生存时间(RMST)确定分类任务阈值。
交易事件与生存数据构建 [page::4][page::6][page::26]
- 指数事件包括借款、存款、还款、提现;清算仅作为结果事件。
- 把用户钱包地址和币种组合作为主体类别。
- 利用滚动连接匹配指数事件后的首个对应结果事件,计算生存时间或删失。
- 示例数据表详见borrow-repay生存数据结构(时间、状态、用户、币种等字段)。
128维特征体系 [page::28][page::29][page::30]
- 基础交易特征(如金额、币种、利率)共24个。
- 用户历史行为特征45个:含交易频率、金额总计、平均等统计。
- 市场总览特征40个:整体交易活动统计。
- 时间特征19个:循环编码时间、周日标志等。
生存预测模型表现 [page::8][page::9][page::10][page::23]

- 比较6种模型:XGBoost、AFT、Cox、GBM、DeepSurv、DeepHit。
- XGBoost表现最佳,平均C-index约0.78,AFT次之。
- Cox表现不稳定,GBM低于随机猜测。
- 深度学习模型调参未获理想效果,显示金融生存任务的复杂性与挑战。
- 最易预测任务均以提现为指数事件;借款还款等任务相对困难。
分类任务与模型表现分析 [page::12][page::13][page::14][page::24]

- 使用RMST阈值转换为二分类问题,切分时间一般在17-21天之间。
- 6种分类模型对比:Logistic回归、弹性网、决策树、XGBoost、DeepHit、自建神经网络。
- 线性模型(Logistic回归、弹性网)整体表现最佳,均值AUC约0.79。
- 深度学习模型表现优于预测任务,显示其在分类任务中的潜力。
- XGBoost表现不佳,或因过拟合和数据不平衡处理问题。
- 某些任务伴随SMOTE数据增强以缓解类别不平衡。
研究贡献及未来方向 [page::0][page::13][page::15]
- 发布首个基于开放DeFi交易的大规模、无个人信息识别、生存分析公开数据集。
- 构建规范生存分析及分类基准任务,支持模型性能评估与算法创新。
- 展示深度学习在高删失复杂金融场景的挑战,传统模型依然强劲。
- 未来可加入其他链和协议数据、额外市场价格信息、自动化特征工程(基于Transformer的特征生成等)。
- 计划纳入竞争风险事件,完善多事件动态建模,提升模型解释力和适用性。
深度阅读
FinSurvival: A Suite of Large Scale Survival Modeling Tasks from Finance — 详尽分析解构报告
---
1. 元数据与概览
标题:FinSurvival: A Suite of Large Scale Survival Modeling Tasks from Finance
作者及单位:Aaron Green, Zihan Nie, Hanzhen Qin, Oshani Seneviratne, Kristin P. Bennett;均来自美国Rensselaer Polytechnic Institute(RPI)的数学科学系和计算机科学系。
发布时间:未明确具体发布日期,但引用日期均为2024年及之前
主题:金融领域的生存分析任务,基于区块链领域去中心化金融(DeFi)交易数据构建大规模生存建模任务的基准(benchmark)。
核心论点:
- 生存分析(survival modeling)广泛用于预测某事件发生的时间(例如医学中的病人生存期,金融中的贷款违约时间)。
- 当前生存分析领域缺乏大规模且公开可访问的金融生存数据集,尤其是涵盖多样特征和大样本量的免费数据。
- 本文基于DeFi协议Aave的区块链交易数据,构造了16个不同的时间到事件(time-to-event)生存分析任务,累积约770万条记录,提供丰富的特征维度(128个特征)。
- 数据集面向未来生存模型的基准测试,展示现有模型(尤其是深度学习模型)面临的挑战,促使方法论创新。
- 构建对应的二分类任务(基于限制均生存时间RMST阈值分类),便于对比不同模型表现。
- 数据公开、无个人隐私信息、支持跨金融、医疗等领域的生存模型评测。
目标:促进AI生存分析模型的发展,尤其在金融风险管理和DeFi行为分析中提供测试平台,推动更精准的风险和机会评估。[page::0]
---
2. 逐节深度解读
2.1 引言与研究背景
- 核心信息:
- 生存数据(time-to-event data)用于衡量事件发生所需时间,在金融领域体现为贷款违约、破产、客户流失等关键事件。医学领域中多为患者存活、死亡、复发时间。
- 现有公开生存数据集体量较小且特征维度有限,如METABRIC (1980条)、SUPPORT (9105条)、SurvSet数据库中最大不到5.2万条。医疗基因组组学虽有大量特征但样本数少(<100条),商业经济数据库虽有较多数据但收费昂贵。
- 深度学习模型的优异表现需要大量训练数据,现有数据规模不足以评价其优劣。
- 贡献点:提供7,698,497条去中心化金融交易数据构建的大规模生存数据集FinSurvival,16个任务,平均每任务48万条数据。[page::1]
- DeFi简介:去中心化金融利用区块链技术实现无需传统银行的金融服务,Aave是主流借贷协议之一,管理资产超过270亿美元。
- 类别交易类型:五大交易类型——存款(Deposit)、借款(Borrow)、还款(Repay)、取款(Withdraw)、清算(Liquidation)。
- 生存任务示例:预测借款后首次还款时间、存款后首次取款时间等用户行为路径。
- 数据源:TheGraph,主要收集以太坊链上Aave V2的交易记录,时间跨度从2020年11月至2024年9月。
- 数据结构:包含用户(钱包地址)、交易币种、交易时间戳、交易类型及金额等。[page::1][page::2]
2.2 数据集构建与特征设计
- 生存数据的定义:包含起点事件(index event)和结局事件(outcome event),记录二者之间的时间间隔,有些样本由于结局事件未发生而被标记为审查数据(censored)。通过对用户-币种的组合作为追踪主体,完成时间到事件的生存数据转化。
- 自动化转化管道:输入为原始交易事件,定义被观测主体(用户与币对)、事件观察期、索引和结局事件,生成“index event → first outcome event”构成的记录。无左删失(left-censored)数据,且审查比例较高(平均约81%)。
- 16个数据集:基于选择四种非清算交易作为索引事件,再结合四种可能的结局事件分别生成。但清算事件只作为结局事件,因为其涉及多方及复杂资产抵押关系。
- 特征工程:共128维特征,包含
- 基础特征22项:交易币种、金额、交易池、借贷利率等;
- 时间特征19项:周期性时间编码,如时段、周、月、季度等正弦余弦编码以捕捉时间周期性;
- 用户历史特征45项:用户过往交易频次、金额统计、最常交易币种等用户行为总结;
- 市场历史特征40项:整个市场在对应时间点的交易汇总信息,反映供需动态。[page::3][page::4][page::6][page::28]
2.3 训练与测试集切分方法
- 按时间划分,训练集截止日期为2022年7月1日,约占60%交易,剩余40%为测试集。
- 每个时段留有缓冲区(30天),避免索引事件因观察窗口不足而导致结局未完全观测。[page::6][page::7]
---
3. 图表深度解读
图1(第4页)- 生存数据概念示意图
- 展示了用户-币对作为主体,随着时间流逝,起点事件和结局事件的发生或被审查的过程。
- 展现了索引事件(如借款)和结局事件(如还款)间隔时间跟踪,及审查点(观察期结束未发生结局事件)[page::4]
- 图示简明反映时间到事件(survival time)记录的生成机制。
图2(第5页)- Kaplan–Meier生存曲线(16个数据集)
- 显示不同起点事件与不同结局事件组合的生存概率随时间变化趋势曲线。
- 每张图中4条曲线分别代表从一类索引事件出发,4种不同结局事件的生存函数。
- 结果表现行为差异显著,如从borrow开始,repay曲线快速下降(即大多数借款较快还款),而liquidated曲线存活概率高(清算事件稀少)。
- p值均<0.0001,表明不同结局事件的生存行为显著不同。
- 支持作者关于不同任务行为差异的论断,验证数据多样性及适合多任务生存建模。[page::5]


表2(第6页)- 单个数据集示例结构(borrow-to-repay)
- 记录字段:时间(秒)、Status(是否发生结局事件,1为发生、0为审查)、用户(匿名钱包地址)、币种(DAI、USDT等)、索引/结局事件类型、金额(美元计价)等。
- 显示借款后还款的生存数据结构,体现数据齐备性和结构清晰。
- 数据中有部分审查数据(Status=0),表明数据真实反映观察期截尾情况。[page::6]
表1(第2页)- 数据集对比
| 数据集 | 领域 | 记录数 | 特征数 | 来源 |
|------------------|----------|---------|--------|--------------|
| FinSurvival | Finance/Omics | 7,698,497 | 128 | 本文 |
| Melanoma | Omics | 41 | 642 | Wang et al. (2020) |
| Ovarian | Omics | 58 | 19,818 | Ganzfried et al. (2013) |
| SUPPORT | Clinical | 9,105 | 47 | Knaus et al. (1995) |
| METABRIC | Clinical | 1,980 | 9 | Curtis et al. (2012) |
| 等其他中小规模临床或工程数据集 | — | — | — | — |
- FinSurvival数据集规模和特征数量远超同类公开存活数据集,体现突破性[page::2]
表3、表4(第7页)- 数据集统计和16个任务摘要
- 总记录770万,时间跨度2020-11至2024-09,用户11.4万,币种60种。
- 平均审查率高达81.26%,反映金融数据高审查特性。
- 16种索引-结局事件对,例如borrow→repay、deposit→withdraw等,记录数几十万至上百万不等。
- 任务中借款到还款、存款到取款等用户金融行为的具体生存时间分布(均值延迟、审查百分比)及对应分类统计。
- 有些任务极度类别不均,如withdraw→liquidated,事件仅占0.2%[page::7]
图3(第10页)- 16个任务下6个生存预测模型C-index热力图
- 横轴:6种模型(XGBoost、AFT、Cox、DeepHit、DeepSurv、GBM),按平均Borda排名排序,左侧越优。
- 纵轴:16个任务,按模型平均难度排序,顶部最易。
- 结果表明,XGBoost整体表现最好,平均C-index最高(接近0.78),AFT次之。
- Cox模型表现一般,GBM最差,甚至比随机猜测还低(C-index约0.3)。
- 深度学习方法(DeepSurv、DeepHit)表现较差,表明该金融数据的非线性和复杂性或超出深度模型当前学习能力,或超参数调优不足。
- 任务难度差异明显,例如withdraw作为索引事件的任务普遍更易预测,deposit-withdraw和borrow-repay反而更难,体现用户行为复杂多变。
- 支持传统机器学习模型(尤其基于梯度提升的树模型)在金融生存任务中依然有效。

表7(第23页)- 详细模型C-index数值
- XGBoost平均最高0.783,最高32个任务中最高分。
- AFT平均0.747,次佳。
- Cox表现及其不稳定,DeepSurv、DeepHit均低于0.5表现不佳,证实了报告结论。[page::23]
图4(第14页)- 16个任务下6个二分类模型AUC热力图
- 分类任务使用RMST界定正负类,简化目标为预测事件是否在限定时间内发生。
- 线性模型(Logistic Regression、Elastic Net)表现最好,均超过0.79平均AUC。
- 深度学习模型(DeepHit、自研神经网)表现较预测任务中提升明显,可达0.78以上。
- 树模型(XGBoost、Decision Tree)表现不佳,尤其XGBoost平均仅0.7左右。
- 与生存预测任务相比,分类任务对模型的训练和表现更友好,深度模型改进空间较大。
- 最容易预测的任务依然是withdraw→borrow和withdraw→deposit,较难的是repay→liquidated等。[page::14]

表8(第24页)- 二分类模型AUC具体数值
- Demonstrates results behind图4详情。
- 验证了部分任务在极度不平衡情况下采用SMOTE优化训练方案。[page::24]
---
4. 估值分析
报告并未涉及公司或资产的直接估值分析,主要聚焦于生存分析任务构建、数据集设计、模型性能评估及基准测试,因此无传统意义上的估值方法阐述。
---
5. 风险因素评估(模型与数据局限)
- 数据特性风险:
- 整体高审查率(超80%)导致事件信息稀缺,模型需处理大量右删失(censored)数据。
- 用户行为高度复杂及多样化,部分任务难以准确建模。
- 清算等事件稀少,类别极端不平衡,影响模型学习。
- 模型风险:
- 深度学习模型针对该任务表现不佳,暗示超参数调优、模型结构或训练方法仍需改进。
- 传统模型表现穷尽了一定潜力,但对复杂非线性关系的捕获仍有限,可能忽略某些行为模式。
- 特征构造风险:
- 依赖人工设计的特征,可能未能全面挖掘潜在时序及交互信息。
- 未来引入自动化、AI辅助特征工程或更多异质数据(如市场行情)可能提升预测能力。
- 方法学限制:
- 当前无竞争风险(competing risks)多事件建模,未考虑不同结局间相互影响。
- 缓释策略:
- 提供完整开源代码,鼓励社区改进模型与特征工程。
- 规划未来引入更多DeFi协议数据及竞合事件模型。[page::15][page::27]
---
6. 审慎视角与细微差别
- 数据隐私与伦理:
- 使用去中心化金融公开链上交易,无个人隐私信息,避免传统金融数据的偏见与隐私风险。
- DeFi协议的智能合约机制确保行为公平透明,减少传统信贷歧视风险。
- 潜在偏见:
- 尽管无明确个人信息,种种区块链使用者特征(如技术熟悉度)未被考虑,可能导致行为数据偏差。
- 模型评估偏差风险:
- 深度模型表现不佳,虽报告强调超参数调优工作,但不可排除因任务本质复杂带来的训练难度。
- 传统GBM模型表现远低于随机猜测,提示参数选择或模型实现可能有问题,或数据特性极端不适合该模型。
- 任务定义限制:
- 生存时间基于单事件对,忽略了多事件动态交互,未来优化空间大。
- 切分策略的合理性:
- 时间切分留出稳健缓冲期,避免标签污染,方法科学合理。
- 结论客观性:
- 作者明确指出目前模型的挑战性,尤其深度学习模型的不足,展现了很好的自我批判态度,未过度夸大成果。[page::8][page::9][page::15]
---
7. 结论性综合
FinSurvival报告系统地构建并发布了一个基于DeFi贷款协议Aave的、包含16个基于区块链交易的生存分析任务的大规模公开金融生存数据集,累计超过770万条记录,每个任务围绕不同索引事件和结局事件展开。其核心贡献在于通过自动化管道将原始链上交易数据转化为时间到事件格式的生存数据,包含丰富的128维特征,包括交易基础信息、用户历史行为、市场环境和时间周期特征。
多个图表清晰展示了数据的生存分布特征(Kaplan–Meier曲线),反映不同任务和事件的行为差异显著。数据集规模远超现有公开生存数据集,为复杂高维、强审查财务生存分析提供了首个免费开放的基准。训练/测试集的严格时间划分及缓冲窗口设计确保模型训练的科学性。
在建模方面,公众号通过广泛传统生存分析方法(Cox、AFT、GBM、XGBoost)及两款深度学习方法(DeepSurv和DeepHit)的综合评测,结论聚焦:
- XGBoost和AFT模型表现最好,利用梯度提升和参数化生存时间建模有效捕获金融行为模式。
- 深度学习模型在生存预测任务中表现不足,受限于超参数调优和数据复杂性,仍存在明显提升空间。
- 任务难度因索引/结局事件组合差异显著,用户行为复杂多变使得某些任务预测挑战较大。
此外,报告将生存预测任务转化为基于限制均生存时间(RMST)的二分类任务,并对分类模型进行测试。结果显示线性模型(逻辑回归、弹性网)方法在分类任务中表现最优,深度学习模型有所提升而XGBoost表现欠佳,表明二分类任务更适合部分模型训练。整体模型表现参差,表明金金融生存建模在理论和方法上仍有较大发展潜力。
特征工程细致且全面,结合领域知识整合用户及市场历史行为、时间周期效应,为模型提供充足信息。未来方向建议包括引入更多外生数据、自动化特征学习(例如基于Transformer的嵌入)、以及考虑多事件竞争风险模型,全面提升模型对现实复杂金融行为的捕获能力。
报告强调其数据的公开透明特性,基于公开区块链,避免隐私及伦理争议,同时支持金融风险评估、用户行为分析及AI生存建模研究。开放源码代码库支持社区复现和扩展。
综上,FinSurvival是一个创新且高度实用的金融大规模生存分析基准,显著推进了AI在金融时间到事件建模领域的发展,结合详尽的实证分析和模型评测,为未来生存分析提供了必要的高质量数据平台和研究范式。[page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7][page::8][page::9][page::10][page::12][page::14][page::15]
---
总体评价
该报告系统而详实地介绍了一个前沿领域数据集和基准体系,结构清晰、论证扎实,数据充分,模型评价多元详尽,融汇了金融、区块链、生存分析和机器学习多学科内容,具有较高的学术及应用价值。当前面临的模型挑战和未来发展方向均描述充分,体现作者对复杂金融数据生存分析问题的深刻理解及研究严谨性。
---