Representation learning with a transformer by contrastive learning for money laundering detection
创建于 更新于
摘要
本报告提出一种基于Transformer和无监督对比学习的金融时间序列表征学习方法,旨在解决洗钱检测难题。通过设计相似度准则采样正负样本,并结合Benjamini-Hochberg多重检测程序,开展双阈值策略以控制假阳性率,实现高效识别诈骗账户。实证基于真实匿名数据的模拟表明,该方法较传统规则和LSTM自编码器显著提升了检测准确率和误报控制能力,为洗钱监测提供新思路和技术路径 [page::0][page::1][page::2][page::16][page::24]。
速读内容
研究背景与挑战 [page::0][page::1]
- 洗钱行为复杂且不断演变,传统规则系统假阳性率高达95%-98%,难以高效识别。
- 真实标签稀缺且存在不平衡,传统监督学习难以直接应用。
方法体系架构 [page::2][page::4]
- 采用Transformer编码整条原始交易时间序列,不依赖专家设计的聚合特征。
- 利用对比学习(Contrastive Learning)无监督预训练Transformer,通过设计基于辅助标签数据的相似性准则,采样相似和不相似样本并优化InfoNCE损失。
- 结合投影头映射到低维空间,加快优化速度并提升泛化能力。
- 使用内存库(Memory Bank)缓存样本表示,提高采样多样性和训练稳定性。
- 正样本采样基于欧氏距离近邻,负样本通过K-means聚类划分类群,避免误将相似样本作为负样本。
Transformer与对比学习细节 [page::6][page::7][page::8]
- Transformer通过自注意力充分捕获交易中的长程依赖,采用可学习的位置编码以适应交易序列特点。
- 设计InfoNCE损失函数,基于余弦相似度对正负样本表示的距离进行优化,温度参数调节损失平滑度。
- 数据增强通过在低维潜空间添加高斯噪声实现,有效扩充样本,缓解标签不平衡和过拟合风险。
下游任务及双阈值检测策略 [page::12][page::14]
- 预训练后的Transformer生成财务账户表示,结合分类器(如逻辑回归)进行洗钱账户二分类。
- 提出双阈值方法,低阈值用于筛除低风险账户, 高阈值用于发现高风险账户,减少误报和漏报。
- 两阈值由Benjamini-Hochberg多重假设检验程序自动校准,以控制假阳性率(False Discovery Rate, FDR),保证检测准确度。
实证分析与对比 [page::18][page::20][page::23][page::24]
- 采用真实脱敏匿名金融交易时间序列数据,分训练集(27%诈骗)与测试集(5%诈骗)。
- Transformer嵌入空间展现良好聚类效果,诈骗账户局部聚集性明显优于LSTM自编码器。
- 分类结果显示基于Transformer表征的分类器在预测概率分布上两类区分度更高,诈骗账户得分集中接近1,非诈骗账户分布于低区间。
- 细化对比包括逻辑回归与XGBoost使用传统汇总特征,以及Transformer对比学习预训练和微调两种训练策略,Transformer预训练结合微调表现最佳。
- Benjamini-Hochberg校准双阈值策略实测中,Transformer相关方法在相同FDR水平下,识别诈骗和非诈骗账户数量均优于其他基线。
方法贡献与局限 [page::26]
- 相比传统规则系统,所提方法有效降低误报率,提升洗钱账户识别率,具备较强泛化能力。
- 预训练与参数调节需较多计算资源,超参数灵敏需调优,但调优完成后模型具备适配演进环境的能力。
- 当前实验基于部分数据进行,未来可扩展至更大规模数据进一步验证。

量化策略概要:无监督对比学习表征预训练 [page::4][page::7][page::8]
- 输入:原始多维交易时间序列 + 账户汇总特征。
- 模型架构:Transformer编码器 + Projection Head映射到低维嵌入空间。
- 训练目标:最大化正样本对(相似账户)间嵌入相似度,最小化负样本对(不相似账户)嵌入相似度;损失函数采用InfoNCE with 温度调节机制。
- 采样机制:
- 正样本:随机选取最近邻账户嵌入。
- 负样本:基于K-means聚类排除同簇账户,随机采样其他簇账户。
- 数据增强方式:在潜空间添加高斯噪声,增加样本多样性,缓解数据不平衡。
- 内存库维护多批次样本表示,提高训练稳定性与多样性。
下游分类及双阈值控制 [page::13][page::14][page::16]
- 分类器采用逻辑回归,输出账户诈骗概率评分。
- 双阈值机制:
- 低阈值$Tl$:控制误报率,筛除低风险账户。
- 高阈值$Th$:控制误报率,同时识别高风险账户。
- 阈值由Benjamini-Hochberg程序基于训练数据的p值估计自动确定,确保FDR在预设水平内。
- 该策略有效减少假阳性负担,提升警报调查效率。
实验亮点与数据特点 [page::18][page::20][page::21][page::23]
- 数据来源真实,经过差分隐私脱敏。
- 测试集诈骗样本比例为5%,存在类不平衡和标签噪声。
- 对比实验表明Transformer实现的嵌入更加清晰地区分了诈骗与非诈骗账户。
- 对比分析结果揭示,Transformer对比学习预训练及微调结合的效果最好,显著优于LSTM和基于传统特征的模型。
- 双阈值策略实施后,在同等假阳性水平下,Transformer方案检测的诈骗账户数明显高于其他方法。
主要结论 [page::26]
- 基于Transformer的无监督对比学习表征,结合双阈值及BH调节,显著提升洗钱检测的准确率及误警控制。
- 该框架为金融反洗钱领域提供了一种前沿的机器学习解决方案,优于传统规则和LSTM网络。
- 未来工作可考虑进一步扩展数据维度、优化训练效率及增强模型解释性。
深度阅读
金融反洗钱检测中基于对比学习的Transformer表示学习研究报告详尽分析
---
一、元数据与概览
- 报告标题:Representation learning with a transformer by contrastive learning for money laundering detection
- 作者:Harold Guéneau、Alain Celisse、Pascal Delange
- 发布机构:Laboratoire SAMM, Université Paris 1 Panthéon-Sorbonne,Shine Marble
- 发布日期:2025年7月15日
- 研究主题:针对金融反洗钱领域,运用Transformer神经网络结合对比学习方法进行时间序列表示学习,构建高效的洗钱检测模型。
核心论点:
本研究提出一种基于Transformer的对比学习无监督预训练策略用于表示学习,然后基于所学表示进行洗钱嫌疑评分,配合两阈值策略(低阈值和高阈值)并使用Benjamini-Hochberg多重检验方法控制误报率(False Discovery Rate, FDR),以提升传统规则系统无法有效识别洗钱的缺陷,尤其是在假阳性率控制方面。核心创新在于:(1)利用原始交易时间序列而非统计聚合指标输入Transformer;(2)采用无标签对比学习预训练该Transformer;(3)设计两阈值策略以实现对潜在欺诈和非欺诈账户的高效筛选和误报控制。[page::0,1,2]
---
二、逐节深度解读
2.1 报告背景(引言)
- 问题背景:洗钱问题占全球GDP 2%-5%,严重危害经济、税收和金融稳定。洗钱行为隐蔽且模式不断发展,现有规则系统依赖硬编码阈值且高误报(95%-98%假阳性),难以适应新型欺诈模式导致检测效率低下。
- 方法论动机:机器学习能弥补规则方法不足,常见方法用统计汇总特征表征客户,但丢失原始时间序列中的关键信息。此研究直面原始交易时间序列,尝试用Transformer捕捉时序依赖、复杂事件特征组合,且通过无监督对比学习克服标签稀缺和样本不平衡问题。[page::0,1]
---
2.2 数据描述
- 数据结构:
- 主数据集 $\mathcal{D}=\{xi\}{i=0}^{N-1}$:每个观察值为固定长度$T$的交易时间序列,$xi \in \mathbb{R}^{T \times d{input}}$,每个时间点包含多维混合类型特征(金额、交易类型、收款方、是否刷卡、货币类型等定量定性混合)。
- 伴随特征集 $\mathcal{D}'=\{xi'\}{i=0}^{N-1}$:每个账户对应的高层次聚合指标与类别特征(例如:月度交易总额、平均数、法律形式、行业分类等),用于构造相似性度量以辅助无标签对比学习。
- 数据不平衡:洗钱账户比例极低(测试集中约5%),必须设计针对性策略减缓类别不平衡影响。
- 数据可视化:
- 图2示意了原始交易事件序列结构,包括每笔交易包含的多个字段。
- 图3展示了伴随数据$\mathcal{D}'$的表格式特征,每个账户对应多维统计和类别变量。
[page::2,3]
---
2.3 预训练流程与方法
- 模型结构(见图4):
- Transformer编码器将时间序列$\mathcal{D}$映射到嵌入空间,输出维度为$d{latent}$。
- 投影头(多层感知机MLP)进一步降维到$d$维,$d \ll d{latent}$,降低计算复杂度并利于对比学习损失的优化。
- 结合对比学习块:借助伴随特征$\mathcal{D}'$设计相似性指标,构造正负样本集合,通过InfoNCE损失函数优化Transformer和投影头参数,实现无标签表示学习。
- 对比学习机制:
- 随机选取参考样本,基于$\mathcal{D}'$构造正样本(类似账户)和负样本(不同类账户)嵌入。
- 通过优化使正例嵌入距离参考嵌入更近,而负例嵌入更远,提升嵌入表达的判别力。
- 引入记忆库(Memory Bank)存储历史嵌入,缓解小批量样本限制,丰富负样本多样性,辅助训练稳定性。
- 在投影嵌入空间加入高斯噪声进行数据增强,防止过拟合并探索数据分布的潜在结构,尤其针对稀缺洗钱样本。[page::4,5,6,7,8,9,10,11]
---
2.4 Transformer结构及定位
- Transformer优势:
- 强化长时序依赖捕捉,重要于发现分散式且隐蔽的洗钱行为。
- 自注意力机制灵活聚焦关键交易事件,支持并行计算优于传统RNN/LSTM。
- 按需学习位置编码,兼顾时序顺序信息。
- Transformer与投影头联合优化。
- 对比学习基于无监督相似性设计,受限于标签稀缺问题得以解决,允许生成通用且稳定的嵌入表示。
- 正负样本选择基于$\mathcal{D}'$伴随数据的欧氏距离及聚类结果(K-means,轮廓系数选优),防止误采样靠近同类的负样本,提升表示语义区分性。
- 注入高斯噪声作为潜在空间扰动,充当一种正则化手段以覆盖数据空间不足。[page::6,7,8,9,10,11]
---
2.5 与相关工作的对比
- 自监督学习在计算机视觉领域常用自动编码器,针对时间序列有LSTM Autoencoder,此工作也以此作为对比基准。
- NLP中Transformer预训练多用掩码词预测(BERT)或下一个词预测(GPT),注重严格的序列语言结构;但交易序列位置顺序对语义影响较小,因此本研究改用基于对比学习的无监督方式。
- 对比学习更适合金融时间序列的“块”处理,能挖掘长期潜在模式。
- 该方法有效缓解了传统监督学习对标签大量需求和易受标签噪声干扰的缺点。[page::12]
---
3. 钱洗检测(下游任务)
- 任务定义:二元分类,目标是判断账户是否为洗钱嫌疑账户(标签0:非欺诈,1:欺诈)。
- 方法流程:
- 首先预训练的Transformer编码器$f\theta$将原始交易转换为嵌入空间点$u$。
- 上游无监督训练后,有标签数据用于训练下游分类器$g\mu$(本文采用逻辑回归),优化交叉熵损失。
- 训练策略:
- CR(Classifier Training):冻结Transformer,训练$g\mu$;
- FT(Fine Tuning):结合标签对Transformer和分类器参数联合微调,进一步提升模型效果。
- 分类器输出预测概率$s
[page::12,13,14]
---
3.2 双阈值策略
- 动机:鉴于洗钱账户极少,单一定阈值难做到误报假阴阳性均衡。
- 按照洗钱评分,设计两个阈值
- 低阈值$Tl$:低于该阈值账户认定为非欺诈,控制误判非欺诈的“假阳性率”(利用FDR指标);
- 高阈值$Th$:高于该阈值账户认定为欺诈,控制误判欺诈的误报率。
- 分层处理,减轻调查资源负担,让分析员专注于“疑似欺诈”和“高度可信非欺诈”账户。
- 图8示意两类别条件分布与阈值位置关系。[page::14,15]
---
3.3 阈值校准:Benjamini-Hochberg (BH)程序
- 核心理念:
- 利用BH多重假设检验框架,对洗钱评分排序并设定阈值确保整体假阳性(FDR)受控在指定水平$\alpha$。
- 计算步骤:
- 为每个账户计算$p$值,$pi^h$表示账户$i$得分相比非欺诈账户得分更高的概率估计,反映欺诈可能性;
- 按$p$值升序排序,确定最大索引$i{BH}$满足$p{(i)} \leq \frac{i \alpha}{N}$,对应阈值$s{(i{BH})}$即为$Th$;
- 类似逻辑计算$Tl$,针对低分非欺诈账户;
- 关键细节:
- 需对带标签数据估计$p$值,训练集非欺诈和欺诈比例不同带来不同FDR调整,[page::15,16,17]
- 算法4给出具体伪代码。
- 优势:
- FDR控制保证误报比例理论上受控,优于经验阈值选取。[page::16,17]
---
4. 实证验证
4.1 数据集描述
- 利用真实(差分隐私处理过的)三个月客户交易数据构建时间序列$\mathcal{D}$和聚合特征$\mathcal{D}'$。
- 数据保密处理与PCA降维结合,保障隐私($\epsilon=1$)。
- 训练测试集时间窗口不重叠,训练集含27%欺诈,测试集含约5%欺诈,体现真实洗钱样本稀缺。
- 数据序列复杂,既含数量值(金额),又含类别(交易方向、支付类型、国家、关键词)[page::18,19]
4.2 表示学习可视化
- 利用t-SNE方法将Transformer预训练的嵌入降维展示,见图11,发现明显聚类,洗钱账户部分在特定区域聚集且稳定。
- LSTM Autoencoder嵌入(图12)聚类效果差异明显,隐含代表能力不及Transformer。
- 多次随机种子下Transformer稳定性显著优于LSTM。[page::20,21,33,34,35]
4.3 预测性能分布分析
- 采用逻辑回归与XGBoost分别在$\mathcal{D}'$聚合特征上训练,分布图(图13、14)显示欺诈与非欺诈类别混叠严重,难以有效区分。
- LSTM Autoencoder表示在时间序列$\mathcal{D}$上训练的结果(图15)略优于聚合特征,但仍较弱。
- Transformer对比学习嵌入结合逻辑回归分类(图16)表现明显提升:
- 非欺诈分布集中在较小得分区域,欺诈样本分布高得分端峰值明显,重叠部分缩小,提升判别能力。
- Transformer微调后(图17)非欺诈样本分布更为尖峭集中,欺诈分布略有波动,整体效果进一步良好。
- 反映了Transformer对时间序列的强表达能力及对比学习的有效性。[page::21,22,23,24]
4.4 阈值校准实验
- 应用BH程序分别获得双阈值$T
- 高阈值$Th$(Table 1):
- Transformer及其微调版本在控制FDR水平下,检测的真实欺诈账户数量均显著优于其他方法,有时倍增。
- 低阈值$T_l$(Table 2):
- Transformer同样在控制假阳性、最大化真实非欺诈识别数方面领先,减少调查无用账户率,节约成本。
- 整体验证了基于Transformer的表示学习与BH多重检验方法对误报率控制和检测率的协同提升效果。
- 注意到FDR水平过低可能导致无拒绝情况(“无阈值”),属合理现象。[page::24,25,26]
---
三、图表深度解读
图1:整体方法流程(第2页)
- 展示从原始时间序列输入到Transformer编码,再到投影头,构建嵌入表示。
- 记忆库充当正负样本的缓存。
- 左侧为无监督对比学习预训练流程,右侧为带标签的下游分类训练。
- 该图清晰示意了两步法体系结构和流程的解耦。[page::2]
图2与3:数据结构示意(第3页)
- 图2展示时间序列的每个交易事件的多维属性,包括金额、类别、受益方等。
- 图3展示账户附加的聚合统计特征矩阵,包括总交易额、平均交易等。
- 突显原始序列与聚合特征存在信息差异,为后续相似度设计提供基础。[page::3]
图4:预训练对比学习整体架构(第4页)
- 明确Transformer输出嵌入矩阵传入投影头和Memory Bank。
- 同时利用$\mathcal{D}'$特征进行辅助样本采样,实现无监督的样本配对。
- 该图助于理解对比学习流程中各模块作用和信息流的合作。[page::4]
图5:Transformer编码器架构(第6页)
- 展示两层编码结构,包含Self-Attention、前馈层及归一化。
- 位置编码单独增加。
- 图形帮助理解Transformer对序列依赖的捕获与逐层抽象能力。[page::6]
图6:高斯噪声数据增强示意(第11页)
- 以二维平面展示参考样本、正例和负例及其扰动区域。
- 显示高斯噪声为生成新样本提供可控多样性。
- 帮助理解潜空间扰动如何促进模型泛化。[page::11]
图8:双阈值策略分布示意(第15页)
- 通过两类概率分布表示不同账户得分区间分布。
- 标示低阈值删除“安全账户”,高阈值标记“潜在欺诈”,中间区间待进一步判定。
- 图形直观表达BH程序调整阈值的决策意图。[page::15]
图9:BH程序排序P值示意(第17页)
- 展示排序的P值与阈值线交点确定拒绝域大小。
- 帮助理解FDR控制中阈值选取的统计依据。[page::17]
图10:训练测试集时间窗口(第19页)
- 说明以不同时间段划分训练和测试样本,减少时间依赖干扰。
- 有助理解数据集的设计与时序稳定性假设。[page::19]
图11、12、19-24:t-SNE嵌入可视化对比(第20,21,33-35页)
- Transformer嵌入显著聚类,欺诈样本聚集紧密(红圈示意)。
- LSTM嵌入较为分散,不稳定性更大。
- 多次训练种子验证Transformer的稳定表现。[page::20,21,33,34,35]
图13-17:不同模型分类得分分布直方图(第22-24页)
- Transformer对比学习嵌入分布区分性明显优于LSTM和传统聚合特征方法。
- 细节如峰值位置、重叠面积大小、尾部分布等都反映模型能力。
- 微调Transformer进一步压缩非欺诈得分范围,提升分类精度。[page::22,23,24]
---
四、关键技术及估值分析
本研究不涉及传统意义上的企业估值,而是对洗钱检测模型的精准度及误报控制进行统计学与机器学习层面的性能估计。
- 估值部分体现在洗钱检测模型的精度与误报率的权衡,通过FDR控制得以量化科学调节阈值。
- 对比学习的超参数(如温度系数、学习率、噪声强度)和Transformer结构参数(层数、注意力头数等)影响表示质量,需通过网格搜索调优(详见附录A.2)。
- 误报控制由Benjamini-Hochberg(BH)程序从统计多重假设检验角度实现,保证在整体水平$\alpha$下误判银行账户洗钱(假阳性)控制。
- Transformer的无监督预训练显著提高了下游分类器预测能力,对异常账户和非异常账户都进行了更有效的识别。[page::31]
---
五、风险因素评估
- 数据标签噪声:非欺诈账户中可能存在未被发现的欺诈账户,标签存在噪声,影响监督训练质量。采用对比学习和无监督预训练缓解标签稀缺及不准确之风险。
- 类别严重不平衡:测试集欺诈仅5%,依赖阈值精确调节及FDR控制避免误报率膨胀。
- 参数敏感性:对比学习和Transformer超参数需精心调优,调参复杂且耗时,但一旦完成可长期使用且动态更新。
- 数据规模有限:验证只基于有限数据子集,未来应用需考察更大规模数据中的稳定性及泛化能力。
- 模型泛化风险:如金融环境和洗钱策略演变,模型需不断更新避免失效。
- 报告未明确提出系统层面缓解策略,未来可考虑动态再培训、主动样本标注、模型解释与审计工具配合。[page::26]
---
六、批判性视角与细微差别
- 积极点:
- 结合无监督对比学习与Transformer,创新与实用性强,解决标签稀缺和复杂时间序列表示挑战。
- BH多重假设控制误报率,填补了金融反欺诈领域理论与实践的空白。
- 数据来源真实且进行了隐私保护,科学性严谨。
- 潜在不足:
- 模型对超参数较敏感,需大规模调参,对资源有限机构是门槛。
- 训练数据集规模较小,且人为提高欺诈比例,可能无法完全代表真实环境异常频率。
- 标签不完全可靠,影响分类准确度,尤其微调阶段未详细讨论标签噪声处理技术。
- 对比学习中相似度定义基于伴随聚合信息,依赖专家设计聚合指标,或减弱完全自动学习的优势。
- 负样本采样采用简单均匀选择,未探索更精细的负样本挖掘策略,后者可能进一步提升性能。
- 对Transformer模型架构及配置细节未详述,限制复现及性能分析的深入探讨。
- 论文未提供定量评价指标(如AUC、召回率、F1分数)详细表格,仅凭分布图和检测数量,影响力度评估。
- 细节差异:
- 低阈值FDR校正考虑了极小欺诈比例,体现对类别不平衡的关注。
- 高阈值与低阈值的误差率定义切换导致实际误报控制水平需动态调整。
- 对比学习正负样本均扰动潜在空间,这是根据时间序列结构难改动的折中方案,彰显实践考量。[page::26,31]
---
七、结论性综合
本报告详细解析了“基于对比学习的Transformer表示学习在洗钱检测中的应用”研究,从数据结构、模型架构、训练方法、误报控制、实验验证等多方面深入展开。
作品的主要贡献体现在:
- 数据利用创新:直接使用原始交易事件时间序列,同时兼顾定性定量混合特征,避免过度依赖人工设计聚合指标。
- 算法创新:无监督对比学习预训练Transformer,缓解监督标签稀缺和不平衡问题;
- 误报控制:采用Benjamini-Hochberg多重检验框架制定双阈值策略,实现理论上的FDR控制,保证检测结果质量;
- 实验验证:真实匿名数据集上的评估表明,Transformer结合对比学习显著优于传统LSTM自编码器与聚合特征模型,在识别欺诈账户和排除非欺诈账户时均表现更优,误报控制更精准。
该体系不仅对于缓解传统规则系统的高误报率有重要意义,也提升了洗钱检测的适应性和稳定性。图表分析充分展现了Transformer的强大表示能力及BH程序的阈值调节优势,在金融反洗钱领域具有实践推广价值。
---
附:示意图片展示示例
图1:整体框架流程

图4:对比学习预训练架构

图6:Latent空间添加高斯噪声示意

图8:双阈值策略示意

图11:Transformer嵌入t-SNE可视化示例

图16:Transformer对比学习嵌入下逻辑回归得分分布

---
以上为对该研究报告的深入细致分析,涵盖了报告主体结构、关键论点、技术细节、实验验证及图表数据解读,力求客观准确,提供对金融反洗钱检测领域中深度学习最新方法的全面认识。[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,33,34,35]