量化百科

机器学习之“无监督学习”

由ftkj2018创建,最终由small_q 被浏览 80 用户

起源于 1901 年 Pearson 的主成分分析(PCA),通过对协方差矩阵的特征值分解或 SVD 分解,通过对特征值排序选取相应的特征向量,将高维特征映射到低维上,达到降维的目的。用于数据预处理。

1998 年,降维算法PCA首次与核方法结合,先将数据集通过核函数(Kernel Function)映射到高维空间,然后在高维特征空间中做 PCA。核 PCA 有更好的降维效果。

2000 年,始于局部线性嵌入(Locally Linear Embedding)的流形学习(Manifold Learning)引领了降维算法的新浪潮。

2008 年 ,t-SNE 作为非线性降维方法,可更好地捕获高维数据的复杂流形结构,也被广泛用于数据可视化。

1963 年,出现最早的聚类算法是层次聚类算法(Hierarchical Clustering)。

1967 年,K 均值(K-means)算法,在数据集中随机选择类别中心,然后将数据集中每个中心的 K 近邻归为该类,再更新类别中心为类别数据中心,重复以上过程直至收敛。

1977 年,EM 算法出现,包括求期望步骤与最大化似然函数步骤,被广泛用于聚类和带有缺失数据的极大似然估计问题。

2000 年,一类基于图论(Graph Theory)的聚类算法,谱聚类(Spectral Clustering)被提出。

来源:东北证券

{w:100}

标签

机器学习协方差矩阵数据预处理