机器学习之“无监督学习”

由ftkj2018创建，最终由small_q更新于2024-05-20 03:21 被浏览 118 用户

起源于 1901 年 Pearson 的主成分分析（PCA），通过对协方差矩阵的特征值分解或 SVD 分解，通过对特征值排序选取相应的特征向量，将高维特征映射到低维上，达到降维的目的。用于数据预处理。

1998 年，降维算法PCA首次与核方法结合，先将数据集通过核函数（Kernel Function）映射到高维空间，然后在高维特征空间中做 PCA。核 PCA 有更好的降维效果。

2000 年，始于局部线性嵌入（Locally Linear Embedding）的流形学习（Manifold Learning）引领了降维算法的新浪潮。

2008 年，t-SNE 作为非线性降维方法，可更好地捕获高维数据的复杂流形结构，也被广泛用于数据可视化。

1963 年，出现最早的聚类算法是层次聚类算法（Hierarchical Clustering）。

1967 年，K 均值（K-means）算法，在数据集中随机选择类别中心，然后将数据集中每个中心的 K 近邻归为该类，再更新类别中心为类别数据中心，重复以上过程直至收敛。

1977 年，EM 算法出现，包括求期望步骤与最大化似然函数步骤，被广泛用于聚类和带有缺失数据的极大似然估计问题。

2000 年，一类基于图论（Graph Theory）的聚类算法，谱聚类（Spectral Clustering）被提出。

来源：东北证券

{w:100}