策略分享

关于机器学习,你必须知道的10件事情

由ypyu创建,最终由ypyu 被浏览 416 用户

很多时候需要为非专业人士解释机器学习,本文提供以下参考。

1.机器学习意味着:从数据中学习

机器学习目前风头正劲,AI也是热搜词汇。只要将合适的数据放入合适的模型,许多问题可以迎刃而解。如果能够帮助你宣传,就叫它AI吧。但请记住,AI,除了在学术界以外,常常是大家可以随意使用的热门词汇,用于描述他们想描述的一切东西。

2.机器学习主要关乎算法与数据,尤其是数据

很高兴能够在机器学习算法,特别是深度学习领域有一些进展,但是数据才是机器学习算法实现的关键因素。机器学习可以没有复杂的算法,但不能没有好的数据。

3.除非你有许多数据,否则你应该坚持使用简单的模型

机器学习将基于数据识别模式,构建由参数定义的模型。如果你的参数定义过多,你很容易过度拟合。详细的解释需要更多数学知识,但是机器学习的原则是:尽可能使模型简单。

4.机器学习的性能受到输入数据质量限制

“无用输入,无用输出”巧妙地点明了机器学习的关键,机器学习只能发现输入数据中的模式。对于有监督的机器学习任务,例如分类,输入数据必须标记正确,特征明显。

5.机器学习需要具有代表性的数据

正如基金介绍书中所说:过去的表现不对未来结果作保证。机器学习则只能对与训练数据分布相同的样本外有良好效果。因此,应对训练数据和样本外数据的偏离表示警觉,经常性地重新训练你的模型以免失效。

6.机器学习中大部分的困难工作为数据转换

从天花乱坠的宣传中,你可能认为机器学习的主要工作为编写和调试代码。但现实更加乏味:大多数你的时间和精力将用于数据清洗和特征工程(将原始特征转化为更有代表性的特征)上。

7.深度学习是革命性的进度,但并不是灵丹妙药

深度学习在很多机器学习应用领域都做出重大贡献,进一步地,深度学习将一些传统需要特征工程的工作自动化进行,特别是在图像和视频领域。但是深度学习并不是一种新技术,仍然需要在数据清理和转化方面付出巨大的努力。

8.机器学习系统极易受操作者误差影响

借用NRA一句话:机器学习算法不会杀死人,只有人会杀死人。当机器学习算法系统奔溃时,一般很少是由于机器学习算法错误。而是因为大多数时候,你在训练数据中引进了人为误差,或者一些系统误差。所以,永远保持质疑。

9.机器学习可以漫不尽心地创造自我实现的预言

在机器学习的许多应用中,你今天做的决定将影响明天收集的训练数据。一旦机器学习系统中嵌入偏差,它就会生成更多新的数据强化这些偏差,有一些偏差会毁掉人的生活。负责任一点:不要创造可自我实现的预言。

10.AI不会拥有自我意识,不用担心崛起并毁灭人类

许多人从科幻电影中了解AI,我们应当从科幻小说中得到灵感,但不应该受其蒙骗,将它当成事实。有许多真实且急迫的危害需要操心,从有意识的恐怖分子到无意识的有偏差的机器学习模型。


原文: 10 Things Everyone Should Know About Machine Learning

标签

机器学习数据驱动
{link}