`

Causal Modelling of Cryptocurrency Price Movements Using Discretisation-Aware Bayesian Networks

创建于 更新于

摘要

本研究基于贝叶斯网络,系统性构建和比较54种离散化模型,揭示比特币、以太坊等六大加密货币价格受宏观金融指标和社交媒体推文量影响的因果结构。研究发现使用等间距两分箱的模型预测表现最佳;不同币种的主要驱动因素存在差异,强调币种特异性建模的重要性。此外,价格变动影响社交媒体活跃度多于反向影响,揭示价格对公众情绪的主导作用。该研究为加密货币的因果推断与价格预测提供了可解释且精准的建模框架 [page::0][page::9][page::16][page::17]。

速读内容


研究背景与动机 [page::1][page::2]

  • 加密货币市场波动大,且币种种类激增,传统单一视角分析难以揭示价格驱动因素。

- 本文提出基于贝叶斯网络的因果建模框架,融合宏观金融指标(黄金、石油、MSCI、标普500、美元指数)和社交媒体推文量,联合分析价格影响因素。
  • 离散化处理是贝叶斯网络建模关键环节,采用结构化流程比较不同离散化方法和分箱数量。


研究框架与数据处理 [page::5][page::6][page::8]

  • 选取6大主流加密币(比特币、币安币、以太坊、莱特币、瑞波币、泰达币)及传统金融资产收盘价与推文量数据,覆盖2018年至2023年日频数据。

- 数据预处理包括异常值剔除、对数变换、单位根检测及首次差分确保平稳性。
  • 离散化方法涵盖等宽分箱、等频分箱、K-means聚类,分箱数为2、3、4,合计54个模型。


离散化方法效果比较及预测性能分析 [page::9][page::10][page::11]


  • 等宽两分箱方法在平衡准确率、F1分数、AUC及综合评分中整体表现最佳,多数币种表现更稳健。

- 离散化分箱数增加导致预测准确度下降,过细分箱增加噪声。
  • 以太坊最适合贝叶斯网络建模,综合评分最高。币安币与泰达币相对较低。


贝叶斯网络结构推理及因果解释 [page::13][page::14][page::15]


  • 不同币种网络结构各异,比特币、币安币依赖MSCI,币安币附加依赖标普500,显示对传统金融市场敏感。

- 以太坊网络较孤立,黄金和美元指数对其价格无明显影响。
  • 泰达币无明显因果连接,反映其稳定币特性。

- 社交媒体推文量在部分网络中为因变量,价格变动驱动公众讨论,符合价格领先情绪的事实。

灵敏度分析及影响力强度 [page::15][page::16]


  • 灵敏度分析显示标普500和MSCI对比特币影响最大,瑞波币主要受MSCI驱动。

- 泰达币对外部宏观因子不敏感。
  • 影响强度分析进一步验证价格对社交媒体影响较金融资产输入更为显著。


结论与未来方向 [page::17]

  • 等宽两分箱的贝叶斯网络为加密货币价格预测提供可解释且有效的模型。

- 不同币种对宏观因子与社交情绪的响应特征显著不同,强调币种特异性分析重要性。
  • 未来应考虑引入动态贝叶斯网络捕捉时间依赖,结合更多内在区块链数据及事件驱动因子,提升模型适应性和预测能力。

深度阅读

金融研究报告详尽分析报告



---

一、元数据与概览



报告标题:Causal Modelling of Cryptocurrency Price Movements Using Discretisation-Aware Bayesian Networks
作者:Rasoul Amirzadeh, Dhananjay Thiruvady, Asef Nazari, Mong Shan Ee
隶属机构:Deakin University, Australia
发布时间:2024年(推断基于引用)
研究主题:应用贝叶斯网络(Bayesian Networks, BN)研究加密货币(比特币、币安币、以太坊、莱特币、瑞波币及泰达币)价格变动的因果驱动因素,特别聚焦宏观金融指标与社交媒体信号的联合影响,以及离散化方法对BN性能的影响。

核心论点与贡献
  • 加密货币市场波动剧烈,价格预测难度大,且现有研究多只聚焦单一因素(宏观金融或社交媒体),缺乏整合分析。

- 本文提出了基于贝叶斯网络的因果建模框架,综合考虑宏观金融指标(如黄金、石油、MSCI指数、标普500、美元指数)和社交媒体推文量,分析多种离散化方法对BN模型预测性能的影响。
  • 通过构建54个BN模型,发现等间距(Equal Interval)两段离散法在预测准确率上表现最优。

- 进一步通过推理、敏感性分析及影响强度分析深入理解不同币种的价格驱动机制,揭示不同币种因果关系结构差异,强调了币种特定建模的重要性。

该报告意在传达的信息为:贝叶斯网络结合合适的离散化预处理,能够提供高解释力和较高预测精度,且帮助理解加密货币价格波动的驱动因素,特别是不同币种具有差异化的因果结构。[page::0], [page::1], [page::2]

---

二、逐节深度解读



2.1 引言(Section 1)


  • 关键论点:尽管加密货币市场历史较短,但其在全球金融体系的影响力不断增强。比特币的市场占比明显下降,而山寨币数量激增,存在安全、隐私和稳定性等创新。

- 推理依据:图1展示了比特币市场占比从2017年的85%跌至2025年3月的58.55%,山寨币数量从2013年的约50种增长至近1万种。市场多样化趋势明显,强调对不同币种的分析需求以捕捉市场动态和投资行为。
  • 背景说明:加密货币价格受矿难、钱包安全、社交媒体活动、搜索趋势、传统资产交互以及监管缺失等多重因素影响,传统金融市场的价格预测难题在此基础上更为复杂。现有研究通常分开研究宏观经济与社交媒体影响,缺乏综合模型来共同评估两者的作用。且多数研究偏重比特币,忽视币种差异性。

- 核心缺口:需提出融合宏观金融与社交媒体信号的币种特定建模方法。[page::1], [page::2]

2.2 相关文献(Section 2)


  • 核心梳理

- 大多文献关注加密货币与传统资产的关联与多样化价值,相关研究包括Corbet等(2018)、Charfeddine等(2020)、Ji等(2018)等,探讨价格间连通性、溢出效应及因果关系。
- 加密货币内部的相关性结构复杂,存在较小聚类组,市场整合度依时变动态调整。
- 投资组合优化视角关注交叉相关性,表明币种与传统资产相关性有限但币种间可能存在互动。
- 社交媒体(尤其推特)情绪对价格有预测作用,积极情绪在下跌趋势中影响更明显。如Abraham等(2018)、Rouhani等(2019)等研究证实了推特情绪与价格变动的统计相关性。
- 目前仍缺乏整合宏观经济与社交媒体因素的因果结构分析研究,特别是对山寨币的研究不足。
  • 结论:文献支撑了社会与金融双重影响因素的重要性,但提示现有方法多为相关性研究,缺乏因果推断与综合模型。[page::3]


2.3 贝叶斯网络概述(Section 3)


  • 关键概念

- BN为概率图模型,使用有向无环图(DAG)表达变量之间的条件依赖关系,节点代表随机变量,边代表因果依赖。
- 利用贝叶斯定理,BN通过局部依赖关系因式分解联合概率分布,减少计算复杂度。
- BN多用离散变量,连续数据需先离散化以提高算法效率。
- BN能结合专家知识和数据,支持因果推断及透明解释。
- 技术难点在于BN结构学习为NP难问题,常用的方法有基于贝叶斯评分的搜索或基于约束的条件依赖检测。
  • 在加密货币建模的价值:BN适合处理高维复杂互动且支持解释性分析,解决传统黑箱模型难以解释的问题。[page::4]


2.4 研究框架(Section 4)


  • 模型构建

- 价格驱动因素分为内部(供需、交易量、挖矿难度)与外部(宏观金融环境及投资行为心理,如市场吸引力和采用度)。研究集中外部因素。
- 选用五个传统金融代表指标:两类商品(金、油)、两类权益指数(MSCI世界指数,标普500),及美元指数(USDX)。理由包含与矿业成本及交易影响相关性。
- 投资者行为引入行为金融学框架,强调情绪与社会媒体影响,特别利用Twitter平台推文量作为投资者吸引力和采纳的代理指标。
  • 创新点:跨界结合宏观金融指数与社交媒体数据,反映复杂市场驱动机制。[page::5], [page::6]


2.5 实验设计(Section 5)


  • 核心挑战:价格数据为连续时间序列,BN建模需要离散化,离散化方法及分箱数量对模型性能影响巨大。

- 方法概述
- 实施3种常见离散化方法:等间距(Equal Interval)、等频率(Equal Quantile)、K均值(K-means),分别配合2、3、4分箱方式,构建54个模型(6币种 × 3方法 × 3分箱数)。
- 模型训练采用80%数据,20%测试,评价指标为平衡准确率(Balanced Accuracy)、F1分数、ROC曲线下面积(AUC)及综合评分(Composite Score)。
- 综合评分由三个指标归一化处理后合成,便于性能比较。
  • 数据及预处理

- 选取币种覆盖市场主流,时间跨度2018年1月至2023年4月,数据包含每日收盘价、推文量及传统金融指标。
- 处理非平稳性(ADF、KPSS检验),应用一阶差分及对价格做对数变换以稳健处理异常值与偏度。
  • 工具参数:使用GeNIe软件,默认的贝叶斯搜索算法,最大父节点数8,迭代20次,随机种子0。

- 重点:通过结构化离散化管线探寻性能最佳的BN构建方案,确保建模稳定且结果可解释。[page::6], [page::7], [page::8], [page::9]

---

三、图表深度解读



3.1 图1:比特币市场占比变化趋势(page 1)




  • 内容描述:2013年至2025年比特币占整个加密货币市场资本的比例变化。

- 趋势:最高点达96.4%,2017年峰值后大幅下降,在2025年仍维持58.55%。
  • 含义:比特币主导地位虽仍显著,但日趋减弱,市场多样化逐渐形成,对多币分析需求增强。

- 联系:数据支撑引言中关于市场多元化与币种特定分析需求的主张。

3.2 图2:价格驱动因素概念框架(page 5)




  • 内容描述:价格驱动因素被体系化区分为内部因素(供需)与外部因素(宏观金融及行为金融)。

- 核心结构:内部与外部因素相互作用,共同影响价格变化。
  • 含义:强调研究重点置于外部因素,宏观及行为金融指标的综合影响,指导后续BN变量选择。


3.3 图3:BN构建管线流程图(page 7)




  • 内容描述:数据获取、离散化(基于所选方法及分箱数)、BN建模、最后评估。

- 说明:流程体现了研究设计的系统性和重复可验证性。

3.4 表1:GeNIe参数设定(page 8)


  • 采用贝叶斯搜索,迭代次数20,最大父节点8,离散阈值20,随机种子0等配置。

- 提供算法细节确保研究可复现。

3.5 表2:54个BN模型预测性能汇总(page 10)


  • 内容详见原表,为各币种基于平衡准确率、AUC、F1值及综合分的多方法、多分箱性能数值。表中标黑最高组合。

- 观察:
- Equal Interval 2-bin组合获四个币种最高综合得分,表现稳定卓越。
- K-means、Equal Quantile表现较强但不够稳定。
- 总体上简洁的2-bin离散往往更优于分箱细化复杂模型。
  • 统计及对比显示以太坊模型整体评分最高,币安币及泰达币相对较低。


3.6 图4:各币种综合分平均图(page 10)




  • 显示不同币种在所有方法组合下的平均模型表现,验证表2发现,以太坊领先,币安币垫底。


3.7 图5:各币种平衡准确率详细离散化箱数对比(page 11)




  • 细分每种方法下2、3、4分箱对应准确率。

- Equal Interval 2-bin持续在多币种中居优,说明过度复杂离散会引入噪声。
  • K-means波动较大且对分箱敏感。

- Binance Coin 2-bin准确率高达0.7,显示相对易预测。
  • 该图体现方法及参数选择对恢复信号的影响。


3.8 表3:各币种、离散方法分箱数据分布(page 12)


  • 展示每个币种离散化后不同分箱中数据分布数量。

- Equal Quantile显示均匀分布,Equal Interval对上升态数据偏重,K-means则呈现高度不均衡。
  • 泰达币在K-means和Equal Interval下极端不均衡,影响模型鲁棒性。

- 该表解释离散策略对训练数据平衡的影响,是理解模型性能波动的关键。

3.9 图6:最佳BN推理图(page 14)




  • 图示每种币种最佳模型,在根节点(币价方向)设置信息“跌”,观察联动概率。

- 关键观察:
- 比特币仅受MSCI影响,价格波动反向驱动社交媒体推文量。
- 币安币影响因素多(MSCI、标普500、推文数),对传统市场更敏感。
- 以太坊相对独立,推文数为其子节点,表明价格对社交活动有导向作用。
- 莱特币有双输入(MSCI、标普500),且预测价格上升概率达99%。
- 瑞波价格受MSCI影响,社交媒体推文无直接影响。
- 泰达币无任何外部输入,价格极其独立,符合稳定币特质。
  • 图示突出了币种层级和外部市场连接结构的差异。[page::14], [page::15]


3.10 图7:敏感性与影响强度分析(page 16)




  • 节点红色深浅表示变量对目标价格节点影响敏感度。边粗细表示影响强度。

- 比特币主要受标普500及MSCI影响,且自身对推文量影响更大。
  • 币安币对MSCI和标普500敏感,且影响推文数。

- 以太坊对推文影响力最大,反映对社交媒体主导感。
  • 莱特币、瑞波影响强度较低。

- 泰达无敏感性,符合无依赖性结构。
  • 本图综合展示了因果强度,凸显各币价格对外部因素的不同响应度。[page::16]


3.11 图8:币价与推文量走势关系(page 20)




  • 结合价格与推文量时序展示。

- 2021年价格波动显著,推文量激增,反映市场情绪高涨。
  • 比特币、以太坊推文关注度持续高,说明其市场中心地位。

- 其他山寨币推文数波动幅度大,表现为事件驱动型关注。
  • 该图为数据关联提供直观证据支持。


---

四、估值分析



本研究未直接涉及加密货币市场的传统估值(如市盈率、DCF等),而是利用贝叶斯网络结构学习离散状态间的因果关系及未来价格方向预测,属于概率预测模型,非绝对价值估算。其“估值”更体现为模型选择中的性能评估及预测准确率比较。核心策略为优化离散化与模型结构提升预测可靠性,最终选定等间距两分箱的贝叶斯网络作为最优方案。

这种评估方法体现了对分类/预测模型准确率的衡量(复合指标结合F1、AUC及平衡正确率),非传统财务估值法。[page::6], [page::9], [page::10]

---

五、风险因素评估



论文未专门揭示加密货币市场投资的风险因素,因其聚焦为价格预测模型构建。若间接推断,可能风险包括:
  • 数据的非平稳性与异常波动,通过变换和预处理加以缓解。

- 离散化方法选择对模型鲁棒性的影响,不合适方法可能导致模型性能下降。
  • 模型结构学习的局限性:BN结构学习为NP难题,可能受样本大小和算法限制导致欠拟合或过拟合。

- 市场外部冲击和政策事件未纳入直接建模,报告建议未来研究中考虑。
  • 不同币种价格响应的异质性可能导致现有模型泛化能力有限。


论文建议未来方向包括动态BN、纳入专家知识等方法来增强因果推断稳健性。[page::17]

---

六、批判性视角与细微差别


  • 优势

- 集合宏观金融与社会媒体数据,既考虑财务市场背景,又兼顾情绪成分,视角全面。
- 引入多种离散化方法与分箱配置,细致挖掘数据特性对模型的影响,科学严谨。
- 强调币种特异性,避开“一刀切”策略,符合实际多元市场状况。
- 利用BN的因果推理优势,凸显解读但隐藏于定量指标中的潜在影响关系。
  • 潜在局限

- 仍为静态BN,未充分考虑价格与因素的时序动态依赖,限制对市场快速变化的捕捉能力。
- 社交媒体数据仅用推文量,未深入挖掘情绪正负、语义内容等可能更细致的信号。
- 泰达币因数据缺乏推文量被排除社交分析,影响对稳定币市场驱动因素的洞察。
- 离散化下的数据平衡与过度简化可能忽视细粒度价格微观波动。
- BN结构学习中算法默认参数选择可能导致结构偏差,未深入探讨算法敏感性。
  • 文献引述:大量参考传统及最新文献,确保理论基础稳固且与前沿接轨。报告内部整体逻辑连贯,无明显矛盾。


---

七、结论性综合



本研究以贝叶斯网络为工具,结合多样的离散化方法,系统评估六大加密货币价格变动的因果驱动机制。主要成果包括:
  • 建模创新:通过结构化的离散化策略管线,实验K-means、等频、等距三种方法及不同分箱,发现在多数币种和指标综合下,等间距两分箱方案最优,兼顾模型预测性能与稳定性。

- 币种特异性:模型表明不同币种对外部宏观金融资产和社交媒体信号的敏感度显著不同,体现去中心化市场的多样性。以太坊及瑞波等币与传统市场联系较弱,而币安币对传统股指较为敏感。泰达币几乎独立,体现稳定币独特定位。
  • 因果推断深化理解:推理结果显示多数币种价格变动领先社交媒体推文,推文更像市场反应而非驱动因素。这一发现有助澄清之前学术界关于社媒影响的争议。

- 金融与行为金融结合成效显著:BN模型揭示股市指数(MSCI、标普500)为重要驱动指标,而黄金、油价及美元指数影响有限,且不同币种表现差异,强调投资策略的币种定制化必要性。
  • 数据分析支撑结论:价格与推文时间序列表明2021年市场活跃度高,推文顶峰与价格波动相伴随。离散化数值分布数据显示不同方法对数据平衡的影响,辅助解释模型表现不一。

- 研究展望:建议引入动态BN以捕捉时间依赖,整合专家知识提升模型解释力,纳入宏观事件影响和更丰富的社媒情绪分析。

综上,该文献成功构建了一个既有预测力又有解释力的加密货币价格因果模型,为投资决策和后续研究提供了有价值的理论和方法参考。[page::0~17], [page::19~21]

---

结束语



本文基于详尽阅读和分析,对加密货币价格因果模型的整体框架、数据处理、模型构建及评估、因果结果及金融含义进行了全方位解读,聚焦数据细节、模型方法与经济金融解释,确保清晰呈现研究价值与局限,为深入理解加密货币价格波动提供了系统思路和实践基础。

报告