量化百科

[深度学习之美06】如何感性认知(半)监督/非监督学习?

由ypyu创建,最终由ypyu 被浏览 14 用户

感性认知监督学习

用数据挖掘领域大家韩家炜教授的观点[1]来说,

所有的监督学习(Supervised Learning),基本上都是“分类(Classification)”的代名词。

它从有标签的训练数据中学习模型,然后给定某个新数据,利用模型预测它的标签。这里的标签,其实就是某个事物的分类。

比如,小时候父母告诉我们某个动物是猫、是狗或是猪,然后在我们的大脑里就会形成或猫或狗或猪的印象(相当于模型构建),然后面前来了一条“新”小狗,如果你能叫出来“这是一只小狗”,那么恭喜你,标签分类成功!但如果你回答说“这是一头小猪”。这时你的监护人就会纠正你的偏差,“乖,不对,这是一只小狗”,这样一来二去地进行训练,不断更新你大脑的认知体系,聪明如你,下次再遇到这类新的“猫、狗、猪”等,你就会天才般地给出正确的“预测”分类(示意图如图3-1所示)。

图3-1 监督学习示意图

事实上,整个机器学习的过程就是在干一件事,即通过训练,学习得到某个模型,然后期望这个模型也能很好地适用于“新样本”(即预测)。这种模型适用于新样本的能力,也称为“泛化能力”,它是机器学习算法非常重要的性质。

在学习过程中,需要使用训练数据,而训练数据往往是人工给出的。在这个训练集合中,系统的预期输出(即标签信息)已经给出,如果模型的实际输出与预期不符(二者有差距),那么预期输出就有责任“监督”学习系统,重新调整模型参数,直至二者的误差在可容忍的范围之内。因此,预期输出(标签信息)也被称为“教师信号”。


感性认识非监督学习

与监督学习相反的是,非监督学习(Unsupervised Learning)所处的学习环境,都是非标签的数据。韩家炜教授接着说[1],

非监督学习,本质上就是‘聚类(Cluster)’的近义词。”

话说聚类的思想起源非常早,在中国,可追溯到《周易·系辞上》中的“方以类聚,物以群分,吉凶生矣”。

但真正意义上的聚类算法,却是20世纪50年代前后才被提出的。

为何会如此滞后呢?原因在于,聚类算法的成功与否,高度依赖于数据。数据量小了,聚类意义不大。数据量大了,人脑就不灵光了,只能交由计算机解决,而计算机1946年才开始出现。

如果说分类是指,根据数据的特征或属性,划分到已有的类别当中。

那么,聚类一开始并不知道数据会分为几类,而是通过聚类分析将数据聚成几个群。

简单来说,给定数据,聚类从数据中学习,能学到什么,就看数据本身具备什么特性了(given data, learn about that data)。

对此,北京航空航天大学的于剑教授,对聚类有12字的精彩总结[2]:

“归哪类,像哪类。像哪类,归哪类。”

展开来说,给定_N_个对象,将其分成_K_个子集,使得每个子集内的对象相似,不同子集之间的对象不相似。

但这里的“类”也好,“群”也罢,事先我们是并不知情的。一旦归纳出一系列“类”或“群”的特征,如果再来一个新数据,我们就根据它距离哪个“类”或“群”较近,就预测它属于哪个“类”或“群”,从而完成新数据的“分类”或“分群”功能(参见图3-2)。

图3-2 非监督学习示意图


半监督学习

半监督学习(Semi-supervised Learning)的方式,既用到了标签数据,又用到了非标签数据。有一句骂人的话,说某个人“有妈生,没妈教”,抛开这句话骂人的含义,其实它说的是“无监督学习”。

但我们绝大多数人,不仅“有妈生,有妈教”,还有小学教、有中学教、有大学教,“有人教”的意思是,有人告诉我们事物的对与错(即对事物打了标签),然后我们可据此改善自己的性情,慢慢把自己调教得更有教养,这自然就属于“监督学习”。

但总有那么一天,我们会长大。而长大的标志之一,就是自立。何谓自立呢?就是远离父母、走出校园后,没有人告诉你对与错,一切都要基于自己早期已获取的知识,从社会中学习,扩大并更新自己的认知体系,然后当遇到新事物时,我们能泰然自若地处理,而非六神无主。

从这个角度来看,现代人类成长学习的最佳方式当属“半监督学习”!它既不是纯粹的“监督学习”(因为如果完全是这样,就会扼杀我们的创造力和认知体系,也就永远不可能超越我们的父辈和师辈),也不属于完全的“非监督学习”,因为如果完全这样,我们会如无根之浮萍,会花很多时间重造轮子。前人的思考,我们的阶梯。

图3-3 半监督示意图

下面我们列举一个现实生活中的例子来辅助说明这个概念。假设我们已经学习到:

(a)马晓云同学(数据1)是一个牛人(标签:牛人)。

(b)马晓腾同学(数据2)是一个牛人(标签:牛人)。

(c)假设我们并不知道李晓宏同学(数据3)是谁,也不知道他牛不牛,但考虑他经常和二马同学共同出入高规格大会,都经常会被达官贵人接见(也就是说他们虽独立,但同分布),我们很容易根据“物以类聚,人以群分”的思想,把李晓宏同学打上标签:他也是一个很牛的人!

这样一来,我们的已知领域(标签数据)就扩大了(由两个扩大到三个),这也就完成了半监督学习。事实上,半监督学习就是以“已知之认知(标签化的分类信息)”,扩大“未知之领域(通过聚类思想将未知事物归类为已知事物)”。

但这里隐含了一个基本假设—聚类假设(Cluster Assumption),其核心要义就是:相似的样本,拥有相似的输出。

【参考文献】

[1] Han J. Data Mining: Concepts and Techniques[M]. Morgan Kaufmann Publishers Inc. 2005.

[2] 于剑. 机器学习—从公理到算法[M]. 北京: 清华大学出版社, 2017.


本文部分节选自《深度学习之美:AI时代的数据处理与最佳实践》(张玉宏著,电子工业出版社,2018年7月出版)。(连载待续)

\

标签

监督学习深度学习深度学习算法