[深度学习之美06】如何感性认知（半）监督/非监督学习？

由ypyu创建，最终由ypyu更新于2023-06-14 03:02 被浏览 14 用户

感性认知监督学习

用数据挖掘领域大家韩家炜教授的观点[1]来说，

所有的监督学习（Supervised Learning），基本上都是“分类（Classification）”的代名词。

它从有标签的训练数据中学习模型，然后给定某个新数据，利用模型预测它的标签。这里的标签，其实就是某个事物的分类。

比如，小时候父母告诉我们某个动物是猫、是狗或是猪，然后在我们的大脑里就会形成或猫或狗或猪的印象（相当于模型构建），然后面前来了一条“新”小狗，如果你能叫出来“这是一只小狗”，那么恭喜你，标签分类成功！但如果你回答说“这是一头小猪”。这时你的监护人就会纠正你的偏差，“乖，不对，这是一只小狗”，这样一来二去地进行训练，不断更新你大脑的认知体系，聪明如你，下次再遇到这类新的“猫、狗、猪”等，你就会天才般地给出正确的“预测”分类（示意图如图3-1所示）。

图3-1 监督学习示意图

事实上，整个机器学习的过程就是在干一件事，即通过训练，学习得到某个模型，然后期望这个模型也能很好地适用于“新样本”（即预测）。这种模型适用于新样本的能力，也称为“泛化能力”，它是机器学习算法非常重要的性质。

在学习过程中，需要使用训练数据，而训练数据往往是人工给出的。在这个训练集合中，系统的预期输出（即标签信息）已经给出，如果模型的实际输出与预期不符（二者有差距），那么预期输出就有责任“监督”学习系统，重新调整模型参数，直至二者的误差在可容忍的范围之内。因此，预期输出（标签信息）也被称为“教师信号”。

感性认识非监督学习

与监督学习相反的是，非监督学习（Unsupervised Learning）所处的学习环境，都是非标签的数据。韩家炜教授接着说[1]，

“非监督学习，本质上就是‘聚类（Cluster）’的近义词。”

话说聚类的思想起源非常早，在中国，可追溯到《周易·系辞上》中的“方以类聚，物以群分，吉凶生矣”。

但真正意义上的聚类算法，却是20世纪50年代前后才被提出的。

为何会如此滞后呢？原因在于，聚类算法的成功与否，高度依赖于数据。数据量小了，聚类意义不大。数据量大了，人脑就不灵光了，只能交由计算机解决，而计算机1946年才开始出现。

如果说分类是指，根据数据的特征或属性，划分到已有的类别当中。

那么，聚类一开始并不知道数据会分为几类，而是通过聚类分析将数据聚成几个群。

简单来说，给定数据，聚类从数据中学习，能学到什么，就看数据本身具备什么特性了（given data, learn about that data）。

对此，北京航空航天大学的于剑教授，对聚类有12字的精彩总结[2]：

“归哪类，像哪类。像哪类，归哪类。”

展开来说，给定_N_个对象，将其分成_K_个子集，使得每个子集内的对象相似，不同子集之间的对象不相似。

但这里的“类”也好，“群”也罢，事先我们是并不知情的。一旦归纳出一系列“类”或“群”的特征，如果再来一个新数据，我们就根据它距离哪个“类”或“群”较近，就预测它属于哪个“类”或“群”，从而完成新数据的“分类”或“分群”功能（参见图3-2）。

图3-2 非监督学习示意图

半监督学习

半监督学习（Semi-supervised Learning）的方式，既用到了标签数据，又用到了非标签数据。有一句骂人的话，说某个人“有妈生，没妈教”，抛开这句话骂人的含义，其实它说的是“无监督学习”。

但我们绝大多数人，不仅“有妈生，有妈教”，还有小学教、有中学教、有大学教，“有人教”的意思是，有人告诉我们事物的对与错（即对事物打了标签），然后我们可据此改善自己的性情，慢慢把自己调教得更有教养，这自然就属于“监督学习”。

但总有那么一天，我们会长大。而长大的标志之一，就是自立。何谓自立呢？就是远离父母、走出校园后，没有人告诉你对与错，一切都要基于自己早期已获取的知识，从社会中学习，扩大并更新自己的认知体系，然后当遇到新事物时，我们能泰然自若地处理，而非六神无主。

从这个角度来看，现代人类成长学习的最佳方式当属“半监督学习”！它既不是纯粹的“监督学习”（因为如果完全是这样，就会扼杀我们的创造力和认知体系，也就永远不可能超越我们的父辈和师辈），也不属于完全的“非监督学习”，因为如果完全这样，我们会如无根之浮萍，会花很多时间重造轮子。前人的思考，我们的阶梯。

图3-3 半监督示意图

下面我们列举一个现实生活中的例子来辅助说明这个概念。假设我们已经学习到：

（a）马晓云同学（数据1）是一个牛人（标签：牛人）。

（b）马晓腾同学（数据2）是一个牛人（标签：牛人）。

（c）假设我们并不知道李晓宏同学（数据3）是谁，也不知道他牛不牛，但考虑他经常和二马同学共同出入高规格大会，都经常会被达官贵人接见（也就是说他们虽独立，但同分布），我们很容易根据“物以类聚，人以群分”的思想，把李晓宏同学打上标签：他也是一个很牛的人！

这样一来，我们的已知领域（标签数据）就扩大了（由两个扩大到三个），这也就完成了半监督学习。事实上，半监督学习就是以“已知之认知（标签化的分类信息）”，扩大“未知之领域（通过聚类思想将未知事物归类为已知事物）”。

但这里隐含了一个基本假设—聚类假设（Cluster Assumption），其核心要义就是：相似的样本，拥有相似的输出。

【参考文献】

[1] Han J. Data Mining: Concepts and Techniques[M]. Morgan Kaufmann Publishers Inc. 2005.

[2] 于剑. 机器学习—从公理到算法[M]. 北京: 清华大学出版社, 2017.

本文部分节选自《深度学习之美：AI时代的数据处理与最佳实践》（张玉宏著，电子工业出版社，2018年7月出版）。（连载待续）