`

Ranked differences Pearson correlation dissimilarity with an application to electricity users time series clustering

创建于 更新于

摘要

本论文提出一种新型时间序列相异度度量方法——排名差异皮尔逊相关相异度(RDPC),结合最大元素差异的加权平均与皮尔逊相关相异度,实现分层聚类。通过多组模拟数据实验,RDPC在处理具有不同季节性、趋势和峰值的复杂数据集表现优异。最终,方法应用于泰国电力局电力用户数据,成功将消费者划分为七个具有独特特征的群体,展示了其实际应用价值与对复杂时序数据聚类的适用性 [page::0][page::1][page::8][page::13][page::14]

速读内容


研究提出 ranked differences Pearson correlation dissimilarity(RDPC)结合元素最大差异加权平均与皮尔逊相关相异度实现更精准的时序聚类 [page::0][page::5][page::6]



RDPC的数学性质与参数设定

  • RDPC定义为 $\alpha$ 加权组合, $\alpha=0$ 时等同于皮尔逊相关相异度, $\alpha=1$ 时为排名差异度量

- RDPC满足非负性、对称性,只有部分参数配置满足距离三角不等式
  • 参数$p$表示考虑的元素比例,权重选用均匀分布,调节算法灵活性 [page::6][page::7]


多组人工数据测试验证RDPC聚类优越性


  • 人工数据分为四组(D、C、M、MC),其中M和MC模拟复杂多季节模式及趋势

- 灵敏度分析结果显示RDPC对参数$\alpha$较敏感,最佳参数为$p=0.1$, $\alpha=0.2$
  • RDPC在复杂数据M、MC组表现远超传统相关聚类、DTW、GAK及K-means

- 传统方法在简单独立高斯和高相关数据组中表现优良,但复杂时序难以胜任 [page::8][page::9][page::10][page::11]

经典肘部法验证RDPC聚类可有效推断正确簇数


  • RDPC算法生成的肘部点更准确匹配真实簇数,特别是在复杂时序组

- 传统DTW、GAK、相关聚类方法肘部点多偏差明显 [page::10][page::11]

泰国电力用户用电数据聚类应用与洞见



  • 用RDPC对1174用户数据处理后去除异常高耗用户,剩1017例正常用户

- 采用肘部法确定聚类数为7,揭示七大类用户群体(标准、高稳定、下降、上升、冬季高耗、2022和2023用电骤降群体)
  • 各类群用电特征分析表明该方法有效区分不同用电行为与趋势,符合地理气候背景与实际用电习惯

- 模型提供实用工具助力能源管理和用户行为理解 [page::11][page::12][page::13][page::14]

深度阅读

金融研究报告详尽分析报告



---

1. 元数据与概览


  • 报告标题: Ranked differences Pearson correlation dissimilarity with an application to electricity users time series clustering

- 作者与机构: Chutiphan Charoensuk与Nathakhun Wiroonsri,分别来自King Mongkut’s University of Technology Thonburi大学数学系及SPDR研究组
  • 发布时间与领域: 报告围绕统计学、概率论,数据科学以及时序数据聚类方法研究,且结合电力用户用电时间序列数据实际应用

- 报告主题: 本文重点探讨一种新的时序数据相异度(dissimilarity)度量,称为Ranked Pearson Correlation Dissimilarity (RDPC),并将其应用于电力用户消费行为的时间序列聚类。
  • 核心论点与目标准确传达:

- 提出RDPC算法,结合最大元素差值加权平均与Pearson相关系数度量,实现更优的时序聚类效果。
-
与现有方法对比(如DTW、GAK、传统相关系数、K-means等)表明RDPC在复杂季节型、趋势变化及峰值表现等场景下优越。
- 最终将此方法应用于实际泰国电力用户月度电耗数据,划分出七个具有明显特征的用户聚类。
  • 报告主旨: 创新度量指标RDPC大大提升时序聚类在复杂实际数据上的表现力,兼顾欧式距离的幅值差异和相关系数的模式相似性。

-
无明确目标价或评级,因其属于算法研究应用型报告[page::0,1]

---

2. 逐节深度解读



2.1 引言部分


  • 关键论点:

- 聚类分析为无监督学习核心方法,在多领域广泛应用。
- 传统时序聚类多集中于欧式距离(Euclidean Distance)或相关性(Correlation-based)两类度量。
- 各类算法(K-means, Hierarchical clustering, DBSCAN等)及DTW形状聚类都有其局限。
- 现有研究多侧重某单一度量,忽视了同时考虑差值大小与相关性的综合需求。
  • 背景说明:

- 阐明电力用户用电模式变量丰富——相似总用电量的用户却可能有截然不同的季节性或峰值模式,传统标度后等距方法可能掩盖实际差异。
- 此局限性催生了RDPC测度,即取最大差值的加权平均与相关系数的综合权衡。
  • 具体示例说明: 利用图1展示两组电力用户用电曲线,说明表面用量相似但行为模式差异显著[page::0,1]


2.2 背景知识章——算法和度量综述


  • 聚类算法介绍

- K-means:最大化类内紧密度,需指定k,迭代更新质心。
- 层次聚类(Hierarchical):构建树状聚类结构,采用不同链接策略(单链接、全链接、均值链接),本研究选用全链接。
- 簇数判定——肘部法(Elbow Method)通过绘制类内距离对k的曲线,寻找“拐点”确定合适簇数。图3示意典型肘部点。
  • 距离与不相似度度量综述

- Dynamic Time Warping (DTW):动态时间规整,处理变速但相似形状序列对齐。
- Global Alignment Kernel (GAK):基于DTW的核函数,适用于序列长相似的比较。
- Euclidean Distance: 基本的矢量距离测量。
- Pearson correlation dissimilarity \(dP=1 - \text{Corr}(x,y)\),用于度量线性关系相异性。
  • 方法组合表(表1)展示将不同聚类算法与距离/不相似度结合,例如Hierarchical + Pearson correlation、DTW、GAK,K-means + RDPC与Euclidean距离[page::2,3,4,5]


2.3 RDPC定义及其数学属性(第3章)


  • 算法构造原理:

- 先计算两序列每个时间点的绝对差值,按大小排序,选取前\(r=\lceil p n \rceil\)最大的元素,求加权平均(权重\(w
j >0\),和为1)形成RankDiff。
- RDPC通过参数\(\alpha\)对RankDiff和Pearson不相似度加权组合实现权衡:
\[
d{RDPC}(x,y|\alpha,p,\vec{w}) = \alpha \cdot \operatorname{RankDiff}(x,y|p,\vec{w}) + (1-\alpha) \cdot dP(x,y)
\]
- 为简便研究,权重选均匀分布\(w_j=1/r\)。
  • 数学性质分析及定理:

- 非负性(M1)始终满足。
- 仅\(\alpha>0\)时满足“M2”——零距离仅对应完全相等序列。 \(\alpha=0\)(纯Pearson dissimilarity)可能导致不唯一性。
- 对称性(M3)满足。
- 三角不等式(M4)仅\(\alpha=1\)(纯RankDiff,即部分元素加权平均绝对差)时保证,其他情况不一定。
- 大样本收敛性定理:\(\alpha=0\)时,因独立性,RDPC渐近收敛至1;而\(\alpha=1\)时,RDPC趋近于两个独立随机变量的绝对差均值。
  • 以上性质揭示RDPC介于严格距离与相关不相似度之间的弹性特征,兼顾稳定性与可解释性。[page::5,6,7]


2.4 人工数据集实验设计与分析(第4章)


  • 数据集构成(图5):

-
组D: 各簇独立高斯不同均值(强调欧氏差异)
-
组C: 高斯但簇间均值相同,簇内高相关,不同簇低相关
-
组M: 具趋势、季节性及尖峰的复杂模式
-
组MC: 复杂度更高的M型数据
  • 实验内容:

1.
参数敏感性分析: 调整\(p\)和\(\alpha\),发现对\(\alpha\)较敏感,尤其取\(p=0.1\), \(\alpha=0.2\)的组合效果最佳。
2.
与现有主流方法比较准确率(表3):
- D组表现认可DTW, GAK和K-means表现优异,RDPC中规中矩。
- C组相关性层面,Pearson聚类与K-means突出,RDPC表现良好。
- M及MC组则RDPC明显优于传统方法(准确率常在0.9以上),DTW与GAK表现较差,由于季节性与趋势信息,时间扭曲缺失优势。
3.
检测簇数的可行性测试(肘部法,表4):
- 传统方法在D和C组能近似检测到真实簇数。
- M和MC组仅RDPC聚类能够较好确定正确聚类数,突出其在复杂数据结构中的优势。
  • 整体结论:RDPC为面向季节和趋势复杂时序数据聚类提供了更合适的距离度量。[page::8,9,10,11]


2.5 真实数据应用:泰国电力用户用电行为聚类(第5章)


  • 数据介绍:

- 1200用户,36个月月度电耗数据(2021-2023年),删除零用电用户后剩1174人。
- 通过两分组递归聚类剔除157名高用电异常用户,剩1017常规用户用于后续分析。
  • 异常用户分析:(表5,图6)

- 高用电群体有明显峰值月份、均值、最大最小电耗显著高于常规
  • 常规用户聚类过程及结果:

- 使用肘部法选择最终簇数为7(图7)
- 各簇平均用电趋势展示(图8)和统计特征(表6)详见:
- 月均电耗、峰值、最低值及标准差
- 聚类内用电序列平均相关度及相关标准差
- 消费趋势标注(上下升降明显轨迹)
  • 各簇特征总结(第14页):

1.
簇1(标准用户,最大群体,月均约110kWh,无明显趋势)
2.
簇2(高稳定用户,月均350kWh,相关系数0.37)
3.
簇3(用电下降用户,相关0.51,连续两年消费显著下降,分别约36%和18%)
4.
簇4(用电上升用户,趋势相反,升幅分别29%、14%)
5.
簇5(冬季用电高峰用户,相关0.59,异常于泰国气候趋势)
6.
簇6(2022年用电骤降,相关0.59,降幅72%)
7.
簇7(2023年用电骤降,相关0.51,降幅59%)
  • 聚类体现了RDPC对用电量大小和行为模式灵敏度兼顾的能力,为电力管理和用户画像提供区分力强的视角。[page::11,12,13,14]


2.6 结论(第6章)


  • RDPC结合了欧氏距离大差异检测与相关性模式匹配,支持用户灵活调整权重,适应多样化时序聚类需求。

-
在大量模拟和真实复杂数据上均超越现有方法。
  • 实际应用证明它能细致发现电力用户的典型消费特征与动态变化。

-
未来展望包括将RDPC应用于更多聚类算法、增加参数化扩展、广泛应用现实世界多领域时序聚类。[page::14,15]

---

3. 图表深度解读



3.1 图1(PEA用户行为示例)


  • 展示两组电力用户用电月度曲线,呈现总用电量近似但季节波动与峰值时点差异明显。红色与蓝色曲线分别代表不同用户组,形态迥异。

- 此图佐证现有单一度量难分辨相同比例但行为差异显著的用户,为RDPC设计动因。
  • 该图支持引言章节文本中对用户行为差异的说明。

[page::1]

3.2 图2(层次聚类树形图)


  • 典型dendrogram结构图,展示逐步聚合的层次结构及组间高度差异。

- 表明聚类算法采用完全连接,全链接距离取两簇间的最大不相似度衡量。
  • 支撑2.1.1小节对层次聚类及测距方式的说明。

[page::3]

3.3 图3(肘部法示意)


  • 横轴k,纵轴类内总距离,可见从k=1至k=2跃降明显(红点),随后降幅趋缓。

- 清晰演示典型算法选k的肘部位置。
  • 与2.2章节肘部法配合,阐释选定有效聚簇数的经典方法。

[page::4]

3.4 图4(DTW对齐示意)


  • 展示不等长或变速序列通过时轴“扭曲”对齐以缩小距离的示意线条。

- 强调DTW对时序形态匹配的强适应性。
  • 说明图支持DTW方法基本原理介绍。

[page::4]

3.5 图5(九个人工数据集)


  • 不同组别(D,C,M,MC)的多组典型时序曲线显示了各组内和组间时序形态及波动差异。

- 图中每条曲线为单个样本测度,对应报告里各组人工仿真设定,体现不同类型数据结构难度。
  • 为后续算法准确率比较提供数据基础。

[page::8]

3.6 图6(高用电群体时序)


  • 展示157高用电用户月度用电曲线,明显高于常规用户且有较大波动。

- 高用电用户电耗集中,表现为异常值簇,需剔除处理避免聚类结果偏差。
[page::12]

3.7 图7(剩余1017用户肘部法结果)


  • 类内距离随簇数k变化,k=7附近出现清晰肘点,选取该点作为最佳簇数。

- 说明实际应用中基于RDPC进行的聚类能够利用传统肘部法有效判断簇数。
[page::12]

3.8 图8(7簇用电均值趋势)


  • 每簇平均电耗随时间走势展示。不同颜色线条代表不同簇,明显差异化用电模式。

- 支持后续簇分类与特征分析,展现聚类结果的实用解读价值。
[page::13]

---

4. 估值分析



本报告为统计方法和数据分析技术研究性质,非金融或证券投资类报告,无企业估值和目标价格设定,故无相关估值方法描述与讨论[page::全篇]

---

5. 风险因素评估


  • 报告本身未详述潜在风险,但隐含风险可包括:

-
算法适用性风险: RDPC虽优于现有方法,但不同领域或数据结构多变,算法泛化需后续验证。
-
参数选择敏感性风险: 参数\(\alpha, p\)调节对准确度影响不容忽视,参数调优依赖经验或具体数据,若设置不当效果下降。
-
数据质量风险: 实际电力用电数据含噪声与异常,须结合预处理去除异常点,否则影响聚类准确度。
-
模型解释性风险: RDPC合成度量易于理解,但三角不等式不完全满足可能带来的算法数学性质局限,影响某些理论分析和下游使用。
  • 报告未提供具体风险缓释措施或发生概率评估。对这些风险的认识需在实际扩展中加强。

[page::6,9,11,14]

---

6. 审慎视角与细微差别


  • 潜在偏见和假设质疑:

- RDPC设计中对权重采取均匀分布简化,可能限制了对极端差异(大/小)的侧重点表现。未来可探索非均匀权重更好调整。
- 断言DTW和GAK不适合季节型数据未覆盖所有可能配置,存在调参或变体可改进该点可能。
- 三角不等式不完全满足影响对某些聚类算法的适用(如某些基于距离矩阵的优化算法),尚未进行深入探讨。
  • 内部矛盾或需注意细节:

- \(\alpha=0\)纯Pearson不相似度不满足零距离唯一性,而现实中此情况可能存在,但RDPC结合后效果被认为较好,这种权衡未深度量化。
- 人工数据中复杂组的定义虽声明不同,但各组数据生成细节未充分展开,可能影响结果普适性解释。
  • 整体稳健,报告覆盖面广,结合理论与多种实验,少见重大矛盾。[page::5,6,7,9,10]


---

7. 结论性综合



本报告对时序数据聚类关键问题进行了深入研究,创新地提出了新型不相似度度量——
Ranked Pearson Correlation Dissimilarity (RDPC),将两大类传统测度优势融合,通过引入最大差异权重和相关系数的线性组合,实现了以下突破:
  • 理论贡献:

- 详尽定义了RDPC,证明了其关键数学性质,结合概率论揭示大样本行为。
- 明确指出RDPC虽非严格距离,但满足大多数度量要求,且保留对极端差异敏感的特性。
  • 实验验证:

- 以人工生成的九类不同性质数据集验证RDPC与传统Pearson相关基、DTW、GAK及K-means聚类的表现,RDPC在复杂季节性变化、趋势及峰值不同的组群中准确率明显领先。
- 在检测真实簇数中,RDPC结合肘部法效果最佳,表现出较强的可用性。
  • 实际应用:

- 选用泰国市电力局电耗数据,针对1174用户进行异常值剔除和重新聚类,最终划分出7大聚类用户群。
- 聚类结果清晰反映用户消费行为差异,包括标准用户、高稳定用户、各类趋势性用户及年份骤降用户等,验证算法在实际复杂数据中的适用价值。
  • 图表支持:

- 通过图1、5、6、7、8等一系列图形,直观展示不同用户群电耗曲线及变化模式,助力理解聚类结果。
- 表2、3详细展开参数敏感度及准确率对比,量化RDPC性能。
- 表5、6结合统计描述深化对不同簇用户特征认知。
  • 整体立场与判断:

- 报告坚决认为RDPC是
时序聚类领域面对复杂行为模式数据的有效新工具,超越单一距离或相关性测度。
- 提出未来在算法融合、参数扩展及更多现实场景中开展研究。

总结: RDPC算子实现了对时序数据幅度差异和行为模式相似性的综合量化,具备高度的灵活性和实用性,在模拟及真实电力用户数据聚类上均展示显著优势,具备广泛推广潜力。[page::0-17]

---

参考文献标注



全文重要结论均有对应页码标示,方便追溯原文。

---

致谢



感谢Provincial Electricity Authority(PEA)提供数据,及相关科研资金支持。

---

附图示例


  • 图1. 用户行为示例:


  • 图5. 人工数据示例:


  • 图6. 高用电用户群:


  • 图7. 用于选簇数的肘部图:


  • 图8. 七簇平均用电曲线:



---

结语



本报告详细论述RDPC算法原理、理论性质、实验验证、实际应用,丰富了时序聚类的度量工具箱,对复杂现实数据分析具有重要指导意义及应用潜力。

# 全文完

报告