`

Postprocessing of point predictions for probabilistic forecasting of day-ahead electricity prices: The benefits of using Isotonic Distributional Regression

创建于 更新于

摘要

本报告围绕使用三种后处理方法(量化回归加权、置信预测和同调分布回归)将点预测转换为概率预测,重点评估了同调分布回归(IDR)在德国和西班牙电力市场的表现。实验显示IDR在组合模型中贡献最大,组合模型性能优于复杂的深度神经网络,提升了电力价格预测的准确性和风险管理能力 [page::0][page::1][page::4][page::5][page::9]

速读内容

  • 研究背景与目标:基于概率预测的运营决策显著优于点预测,故研究将点预测通过后处理转化为概率预测的方法,包括量化回归加权(QRA)、置信预测(CP)和同调分布回归(IDR) [page::0]

- 数据与模型:使用德国(BZN|DE-LU)和西班牙(BZN ES)2015-2023年电价及负荷、可再生发电、碳排放、天然气、原油和煤炭价格数据,点预测采用改进的LASSO估计自回归模型(LEAR)和类似日基准模型 [page::0][page::2]
  • 后处理方法详解:

- QRA通过最小化pinball损失拟合条件分位数,综合多训练窗口点预测实现预测分布。
- CP利用点预测误差构造置信区间,假设误差对称。
- IDR通过最小化CRPS加同调约束估计条件分布,保证分位数单调性,结合插值获得任意点预测的预测分布。

- 三者的预测分布通过概率平均构成LEARAve组合模型 [page::3][page::4]
  • 计算效率对比及基准:

- LEAR配合QRA、CP、IDR计算时间分别约10~15分钟、10~20秒,组合模型约3小时,Deep Neural Networks (DDNN-JSU)需6小时以上并且超参数优化耗时数周 [page::5]
  • 预测性能比较:

- LEAR-Ave组合在德国与西班牙4.5年测试期内各时期均获得最低CRPS,优于单独后处理方法和复杂DDNN模型,特别是在能源危机期间表现更稳健。
- IDR单独后处理表现最为波动,QRA中等,CP较为稳定。


- Shapley值分析显示,IDR在组合中贡献最高,超过75%权重,CP贡献最低 [page::6][page::7]
  • 风险管理方面,极端分位数预测:

- 在置信区间极端(1~10%, 90~99%),LEAR-Ave整体表现领先,DDNN在初始1.5年表现突出但需频繁调整超参数 [page::8]
  • 统计显著性检验:

- Giacomini-White条件预测能力(CPA)检验确认LEAR-Ave整体显著优于各单模型及DDNN,支持后处理组合优势 [page::7][page::8]
  • 结论:

- 后处理技术是获得概率电价预测的有效简便方法,IDR增加模型多样性带来显著提升。
- LEAR-Ave组合模型在德国和西班牙市场的4.5年测试期表现优异,尤其适合风险管理应用。
- 复杂深度模型DDNN表现受限于超参数优化耗时和市场波动,后处理组合模型性价比更高 [page::9]

深度阅读

金融研究报告详尽分析报告



---

1. 元数据与概览


  • 报告标题:

Postprocessing of point predictions for probabilistic forecasting of day-ahead electricity prices: The benefits of using Isotonic Distributional Regression
  • 作者: Arkadiusz Lipiecki, Bartosz Uniejewski, Rafał Weron

- 发布机构: Wrocław University of Science and Technology
  • 日期: 未明确给出,文章待刊载于《Energy Economics》

- 研究主题: 针对日前电价(day-ahead electricity prices)预测中的概率分布后处理方法,聚焦于将点预测转化为概率预测,重点评估等键单调分布回归(Isotonic Distributional Regression, IDR)方法的优越性。

核心论点简述:
本研究强调,基于预测分布而非单点预测进行的运营决策在电力市场中可带来显著的额外收益。然而,目前大多数模型仍主要只产出点预测。论文提出并比较三种点预测转概率预测的后处理方法:Quantile Regression Averaging (QRA)、Conformal Prediction (CP)、Isotonic Distributional Regression (IDR),发现IDR表现出更丰富的行为,且贡献最大(利用Shapley值衡量),最终所构建的基于这三者的组合(LEAR-Ave)显著优于当前顶尖的分布式深度神经网络(DDNN)模型,评测数据涵盖德国和西班牙两大欧洲电力市场,且跨越COVID疫情和乌克兰战争等极端事件时期。[page::0]

---

2. 逐节深度解读



2.1 引言与研究动机(Section 1)


  • 关键论点:

基于概率预测进行的日电价交易操作提高收益可达20%相比仅用点预测,然而概率预测模型构建复杂,使得多数学者和实务者仍倾向于点预测。后处理方法(postprocessing),即利用点预测转化为概率预测的技术,为求解这一难题提供了切实可行的路径。[page::0]
  • 推理依据:

后处理方法充分利用点预测领域的成熟成果(如LEAR模型),通过结合统计模型和机器学习方法实现概率预测。而且现有研究和行业技术文献支持后处理可提升预测的经济效益和实用性(引用大量相关文献)。

---

2.2 数据集(Section 2)


  • 关键论点:

研究采用德国和西班牙两个欧洲主要电力市场的公开数据,涵盖日期从2015年初至2023年底,测试期为2019年6月底起的4.5年。[page::0], [page::2]
  • 细节与假设:

- 数据来源包括ENTSO-E(电价、负荷、风光发电预报)和Investing.com(碳排放、天然气、原油与煤炭价格),价格、负荷等数据聚合为小时级。
- 对时间换算(日光节约时间转换)进行适当处理,缺失值与重复值用邻近小时均值代替。
- 图1展示了时间序列的电价、负荷及再生能源发电的演变,明显波动带有负价现象(德国价格2023年7月最低到-500欧/MWh)。[page::1]

---

2.3 点预测模型介绍(Section 3)



2.3.1 LEAR模型(LASSO-Estimated AutoRegressive)


  • 模型概要:

LEAR为参数丰富的自回归模型,带有外生变量,利用LASSO正则化估计回归系数,采用变量包括过去电价、系统负荷预测、风光发电预测、加上四个关键宏观经济指标(碳排放价格、天然气、布伦特原油及煤炭价格,均滞后两天),通过7折交叉验证保证泛化,[page::2]
  • 参数处理特殊:

- 对价格变量进行了区域反双曲正弦(asinh)变换以稳定方差,输出经逆变换还原,做法参考Uniejewski等(2018)。
- 采用Matlab 2024a中基于坐标下降的标准LASSO估计器,较原先文献中的LARS方法更精确,但计算开销更大。
- 模型预测取不同训练窗口长度(56,84,1092,1456天)训练结果的平均,提升准确性。
- 预测采用滚动窗口策略,每日重估参数以保证模型动态适应市场变化。
  • 关键数据点:

训练集遍历不同长度,交叉验证提高鲁棒性,点预测作为后续概率预测的输入基础。[page::2]

2.3.2 Naive基准模型


  • 方法描述:

类似日法(similar-day approach),对周一、周六、周日采用上周同日小时价格预测,其它日子采用前一日同小时价格,简单但在电力负荷领域经常用作对比基准。[page::2]

---

2.4 后处理概率预测方法(Section 4)


  • 总体流程:

针对每小时点预测$\hat{p}{d,h}$,利用不同后处理方法训练概率预测模型,每日更新,考虑的校准窗口长度为28、56、91、182天,通过概率(垂直)均值整合不同窗口结果(除Naive-1N)[page::3]

2.4.1 Quantile Regression Averaging (QRA)


  • 方法介绍:

作为经典方法,用点预测作为协变量进行分位数回归,求解各分位数对应的线性回归系数,点预测加权组合得预测分位数。系数通过极小化pinball损失函数获得。
  • 三种变体中选择:

使用所有点预测加权平均的单一模型(LEAR-QRM)是最优方案,计算成本最高但在精度与速度上均表现最佳。[page::3]

2.4.2 Conformal Prediction (CP)


  • 方法介绍:

依据前期点预测误差数据构造置信区间,无分布假设,假设误差对称,区间以点预测为中心,通过非符合度分数确定每个置信度的边界。预测分位数形式简单。
  • CP变体:

结合点预测均值,使用与QRA同样的训练和校准集,有良好性能表现,优于分布预测的概率均值。称为LEAR-CP。 [page::3]

2.4.3 Isotonic Distributional Regression (IDR)


  • 方法介绍:

非参数回归方法,基于极大似然下的CRPS最小化,条件CDF满足单调约束(预测值越高,对应分布量化水准非递减)。
  • 算法细节:

利用排序点预测和实际值的训练数据,构造误差平方差最小的问题,通过“pool-adjacent violators algorithm”加速求解。对新点预测值采用线性插值方式获得预测分布。[page::3], [page::4]
  • 结合多训练窗口:

分别对不同校准窗口长度结果做概率均值,构成最终LEAR-IDR模型,实验显示单一平均点预测效果不佳。[page::4]

2.4.4 预测分布集合(LEAR-Ave)


  • 方法介绍:

将LEAR-QRM,LEAR-CP和LEAR-IDR三大模型预测分布进行概率平均,构成集合预测模型。准备试验表明三者并用优于任意两者组合。[page::4]

2.4.5 以正态噪声假设构建的基准模型(Naive-1N, Naive-N, LEAR-N)


  • 方法介绍:

假设误差服从零均值正态分布,利用不同长度校准集估计标准差,构造基于点预测,加入正态分布若干标准差区间获得概率预测基准模型,包含针对Naive和LEAR点预测的不同变体。[page::4]

2.4.6 深度神经网络基准(DDNN-JSU)


  • 方法介绍:

Marcjasz等(2023)提出的分布式深度神经网络,输出肯森SU分布四参数,参数已用德国市场历史数据调参,测试数据统一采用该配置,避免频繁高成本重新调参。[page::5]

---

2.5 计算资源消耗比较



根据表1,多次运行LEAR点预测耗时数小时,QRA次之,CP和IDR秒级别快速运行,综合LEAR-Ave耗时3小时左右,DDNN-JSU6小时左右。DDNN调参复杂,单次调参需要数周,因而后处理方法高效且实用。[page::5]

---

2.6 预测性能评价与结果(Section 5)



2.6.1 CRPS评分比较(Table 2)


  • CRPS定义和计算:

连续排名概率得分(CRPS)衡量预测分布与真实观测的差异,是概率预测的主流评估指标——越低越优。[page::5]
  • 主要发现:

- LEAR-Ave组合模型在德国和西班牙市场四个子区间均取得最低CRPS。
- Naive基准模型表现最差,LEAR-N作为简单基于正态假设的基准表现优于Naive。
- 单一LEAR后处理方法中,LEAR-QRM和LEAR-IDR表现相近,LEAR-QRM稍占优。
- DDNN-JSU在能源危机和乌克兰战争期间表现明显不佳,表现优于部分方法的仅限某些稳定期。[page::5]

2.6.2 时间序列滚动评测(Figure 3)



通过滚动182天窗口计算相对于LEAR-N模型的Skill Score:
  • IDR表现波动最大,间断期表现较差(如德国2019-2021、2021-2022、2022-2023),高价平稳期表现优异。

- CP稳定性最好,QRA介于二者之间。
  • 不同窗口长度产生的分布中,IDR多样性最大,CP最小。
  • 价格水平与模型性能的相关性: 高价波动期DDNN下降明显,稳定期提升,多数LEAR模型更平稳。[page::6]


2.6.3 Shapley值评估贡献(Figure 4)


  • Shapley值用于公平分配预测性能贡献,实验显示IDR对组合模型贡献最大,CP贡献最小。

- 各子阶段IDR贡献均为最显著(2023年份IDR贡献高达75%+),表明IDR为组合性能提升的核心驱动力。[page::7]

2.6.4 与Marcjasz等(2023)结果对比


  • LEAR-QRM的改进(变换、估计器、交叉验证)显著降低CRPS(1.350 vs. 1.662)。

- DDNN-JSU差异难以解释,可能因数据集差异(尤其是负荷与可再生能源预测数据差异幅度较大)导致预测性能的变动。
  • 实际上RES预测差异高达±45%(最大),证明数据一致性对模型性能十分关键。[page::7]


---

2.7 条件预测能力测试 CPA(Figure 5)


  • 使用Giacomini和White(2006)提出的CPA测试,统计不同模型预测能力差异显著性。

- LEAR-Ave全周期显著优于所有单体模型和DDNN-JSU(后者尤其在能源危机时表现差)。
  • LEAR系列方法整体明显优于深度网络,反映后处理技术更适应波动剧烈及极端情况。

- 该测试排除表现极差的Naive-1N与Naive-N以聚焦主流方法差异。[page::7]

---

2.8 极端分位数性能分析(Risk management视角,Table 3和Figure 6)


  • 关注置信水平低于10%及高于90%的尾部分位数预测质量。

- LEAR-Ave整体表现最优,DDNN-JSU在德国2019-2020阶段表现最佳但无显著性差异。
  • IDR在尾部极端分位预测表现稍逊于其他LEAR后处理方法,暗示其优势主要体现在预测分布的中间区间。

- CPA测试结果支持LEAR-Ave尾部分位数预测优于各单模型且胜过DDNN。[page::8]

---

2.9 结论(Section 6)


  • 本文首个将IDR引入日前电价概率预测,首次或少数应用CP。

- 后处理理念为基于点预测的概率分布构建提供简单实用且效果优异方案。
  • 预测多样性关键,IDR为核心贡献者,集合模型LEAR-Ave优于DDNN-JSU。

- 在分布尾部预测中,DDNN-JSU具潜力,尤其在优化状态下。
  • 推荐LEAR-Ave作为首选组合模型,LEAR-QRA作为优秀备选,DDNN-JSU适合风险管理应用但需频繁调参支持。

- 研究资金支持明确来源于波兰国家科学中心。[page::9]

---

3. 图表深度解读



图1(第1页)


  • 内容描述:

展示德国与西班牙以小时为频率的日电价、负荷预测$\hat{L}
{d,h}$和可再生能源发电预估$\hat{R}_{d,h}$时间序列,区分校准期(灰色)和测试期(白色)。[page::1]
  • 数据和趋势:

电价在疫情及之后的能源危机期间大幅上升,德国甚至出现-500€/MWh历史极值;负荷波动呈周期性,德国负荷分布区间远大于西班牙;可再生能源生成波动显著,德国更为剧烈。[page::1]
  • 与文本联系:

体现数据波动及复杂性,凸显直线点预测难题和概率预测的必要性。

---

图2(第4页)


  • 内容描述:

IDR算法示意,包含排序校准样本、违反单调性数据池化、CDF曲线构建、插值估计新预测的概率分布过程共4子图。
  • 解读趋势:

通过数据池化减少CDF交叉,实现条件分布一致的单调要求,插值构造完整分布。
  • 联系文本:

直观展示IDR理论数学程序与实际数据操作方式,增强理解IDR推断流程。
  • 数据局限与注释:

样例数据较小(4天),实际数据规模更大可能带来更准确结果。[page::4]

---

表1(第5页)


  • 内容描述:

计算资源耗时表,显示LEAR模型及后处理方法耗时、DDNN网络训练耗时及超参调优复杂度。
  • 趋势解读:

LEAR建模耗时最长,QRA次之,CP和IDR秒级快速,表明后处理方法计算效率显著优于复杂深度学习模型。
  • 联系文本:

支持后处理方法既轻量又高效的主张,是实际应用中的重要优势。[page::5]

---

表2(第5页)


  • 内容描述:

各模型CRPS指标按年与市场分列,颜色编码强调同列最好与最差。
  • 趋势解读:

LEAR-Ave各期均最佳,Naive最低效,DDNN-JSU在2021-2022能源危机特征明显;IDR和QRA交替领先,CP较稳定。
  • 联系文本:

定量显示论文提出方法相较竞争模型优势,验证后处理方法有效性。[page::5]

---

图3(第6页)


  • 内容描述:

跟踪德国、西班牙模型相对LEAR-N滚动CRPS Skill Score曲线以及每日平均价格。
  • 趋势解读:

IDR表现最不稳定,价格剧烈变动时表现低;QRA表现温和;CP相对稳定。DDNN曲线波动明显,尤其震荡期捕捉不足。
  • 联系文本:

反映模型在不同市场和时间段的动态性能及市场价格波动与模型性能的协同关系。[page::6]

---

图4(第7页)


  • 内容描述:

不同后处理组件对LEAR-Ave组合贡献的Shapley值条形图,德国与西班牙比较。
  • 趋势解读:

IDR是最主要贡献者(超过12%德国、约12%西班牙),次之为QRA,CP贡献最小。
  • 联系文本:

确认IDR在组合中价值最大,重点支持该方法。[page::7]

---

图5(第7页)


  • 内容描述:

CPA测试p值的热力图,展示模型两两比较显著性差异,绿色显著,红色不显著,以及黑色无比较。
  • 趋势解读:

LEAR-Ave在所有对比中极显著优于其他模型。DDNN-JSU多处显著被LEAR系列击败。
  • 联系文本:

统计显著性角度加强结论,验证模型性能差异非偶然。[page::7]

---

表3(第8页)


  • 内容描述:

极端20 percentiles分位点Aggregate Pinball Score,区分年份、市场与模型。
  • 趋势解读:

LEAR-Ave整体最佳,DDNN在个别年份表现突出但极端以外表现常波动。IDR尾部表现欠佳。
  • 联系文本:

强调在风险管理和尾部预警中模型优势多样且需权衡选择。[page::8]

---

图6(第8页)


  • 内容描述:

极端区间CPA测试热力图,验证不同模型在尾部预测准确度的显著性。
  • 趋势解读:

LEAR-Ave相比单体模型优势显著,DDNN偶有优点但总体落后。
  • 联系文本:

辅助表3尾部性能评价,揭示模型极端风险预测能力有差异。[page::8]

---

4. 估值分析



本报告无传统的企业估值内容,故无估值分析章节。本文主要关注时间序列预测模型性能,并未涉及估值模型(如DCF、市盈率等)。

---

5. 风险因素评估



虽然未设专章,但报告中隐含若干风险因素:
  • 数据质量风险: 如RES发电预测数据存在巨大差异,极端偏离真实,直接影响模型训练与预测效果。

- 模型泛化风险: 模型如DDNN依赖超参数及数据集稳定,未能动态优化导致部分时期性能骤降。
  • 市场极端波动风险: 价格极端波动期间部分模型难以适应,表现波动大,可能影响决策稳定性。

- 计算资源和时间成本风险: 深度模型调参及训练费时费力,不适合频繁更新。

报告未对风险提出具体缓解措施,但强调后处理方法快速且高效,间接降低操作风险。[page::5], [page::9]

---

6. 批判性视角与细微差别


  • 模型选择偏向: 文章明显支持LEAR及后处理方案,DDNN模型表现不佳被归因于数据及超参调优限制,存在潜在偏向。

- 数据一致性问题: 与Marcjasz等先前结果差异,说明基础数据版本一致性极重要,未深入讨论数据更新可能引入的偏差。
  • IDR尾部预测稍弱: 尽管整体表现突出,但尾部分位预测效果低于其他方法,未来可进一步优化。

- 组合方法权衡不够: 组合赋予IDR最大权重,但在某些时间段表现波动大,是否该动态调整贡献未提及。
  • DDNN潜力描述含糊: 表述其在尾部有优势但调参困难,缺少实验证据支撑。


整体报告基于严谨实证,少有主观推断,但对复杂深度学习模型的能力表达存在一定消极态度,并对数据问题部分解释有限,需审慎理解。[page::7], [page::8], [page::9]

---

7. 结论性综合



本论文系统地评估了三种领先的后处理方法(QRA、CP和IDR)在日前电价概率预测中的性能表现,通过与传统基于正态误差假设的基准及先进的深度神经网络模型(DDNN-JSU)的多维全面对比,得出了以下综合结论:
  • 数据与方法切入点严谨: 基于丰富的德国与西班牙公开数据(时间跨度涵盖2023年底,事件包括COVID疫情及欧洲能源市场危机),利用先进的LEAR点预测模型作为后处理输入,确保科学合理性。

- 后处理方法独立优势: QRA在预测整体分布(特别是中心分位数)上表现优异,CP稳定但贡献较小,IDR作为新兴非参数方法提供了更丰富且核心的预测多样性,尤其中间质预测表现最佳。
  • 组合模型LEAR-Ave优势显著: 三者概率均值集合充分利用各自优点,在CRPS及CPA检验上均优于单一方法和DDNN模型,实现了预测精度和稳定性的最佳平衡。

- 深度模型表现受限: DDNN-JSU虽理论先进,但受限于超参调优复杂和数据一致性问题,其在重大市场变动期间表现不佳,反而传统统计模型通过合理后处理取得更优预测表现。
  • 图表与数据支撑详实: 图1和图3细致阐明数据和动态性能差异,图2直观展示IDR核心算法原理,表1-3用定量指标全面验证结论,图4-6则从贡献分配和统计显著性多角度支持评价。

- 经济与风险管理视角考量: 尾部分位预测性能表明组合模型在风险管理中具备优良预测力,且多样性对提升收益具有积极意义。
  • 技术与实践意义: 该研究证明基于点预测的后处理概率预测方法,尤其是集成IDR和QRA的组合,是目前能源市场电价概率预测领域中简单、高效且性能优异的主流方案。


综上,该报告系统呈现并验证了后处理技术升级概率预测性能、实现稳定且准确电价预测的可行路径,经历市场多变考验、跨方法比较和严格统计测试,提出LEAR-Ave组合为当前最优策略,具有重要的学术价值和工程落地意义。[page::0-9]

---

总结



本报告全面且深入,结构条理清晰,方法原理与实证结果紧密结合,行业影响力大,提供了概率预测领域内极具参考价值的理论与实践指南。明确支持将IDR纳入概率预测体系和集成多算法组合,推荐在实际电力市场风险管理和交易策略构建中推广应用。

报告