机器学习之半监督学习释义

来源:计算机世界
关键字:亚马逊,模型,缺点
发布时间:2019-12-25 22:26

　　在 2017 年写给亚马逊股东的信中，Jeff Bezos 提到了亚马逊语音智能助理Alexa 的一些有趣之处：在美国、英国和德国，通过改进 Alexa 的机器学习组件以及使用半监督学习技术，在过去 12 个月里我们把Alexa 的口语理解能力提高了 25% 以上。（利用这些半监督学习技术，实现相同精度所需的标记数据量减少了40 倍！）

　　鉴于这些结果，在我们自己的分类问题上尝试半监督学习可能会很有趣。那么，什么是半监督学习呢？它有什么优缺点？我们怎样使用它？什么是半监督学习？

　　顾名思义，半监督学习介于受监督学习和无监督学习之间。受监督学习采用带有正确答案（目标值）的标记过的训练数据。在学习过程之后，将得到一个经过调优的权重集的模型，这可以用于预测尚未标记的类似数据的答案。

　　半监督学习同时使用标记和未标记的数据来拟合模型。在某些情况下，比如Alexa 的添加未标记的数据的确提高了模型的准确性。在其他情况下，未标记的数据可能会使模型更差。正如我将在下面所讨论的，在不同的数据特性条件下，不同的算法会有不同的缺点。

　　一般来说，标记数据需要花费金钱和时间。这并不总是问题，因为有些数据集已经有了标记。但是如果您有很多数据，其中只有一些是标记过的，那么半监督学习这种技术很值得一试。

　　半监督学习算法半监督学习至少可以追溯到 15 年前，甚至更长；威斯康星州大学的 Jerry Zhu在 2005 年写了一份文献调查。近年来，半监督学习再次兴起（不仅是在亚马逊），因为它降低了重要基准的错误率。

　　DeepMind 的 Sebastian Ruder 在 2018 年 4 月写了一篇博文，介绍了一些半监督学习算法，即创建代理标签的算法：包括自我训练、多视图学习和自我整合。

　　自我训练使用模型自己对未标记数据的预测结果，将其添加到已标记的数据集中。实际上，这为预测的置信水平设置了一些阈值，通常为 0.5甚至更高，高于该阈值时，相信预测结果并将其添加到已标记的数据集中。不断地重新训练这个模型，直到没有更多可信的预测结果为止。

　　这就回避了用于训练的实际模型的问题。和大多数机器学习一样，你可能会尝试每一个合理的候选模型，以期找到一个能很好工作的模型。自我训练在一定程度上是成功的，可谓是好坏参半。最大的缺点是模型无法纠正自己的错误：例如，对异常值高度自信（但错误）的预测可能会破坏整个模型。

　　多视图训练在不同的数据视图上训练不同的模型，其中可能包括不同的特征集、不同的模型体系结构和不同的数据子集。多视图训练算法有很多，其中最著名的是三视图训练。本质上，可以创建三个不同的模型；每当两个模型同意一个数据点的标签时，该标签就会被添加到第三个模型中。与自我训练一样，当没有更多的标签被添加到任何一个模型时，就停止了。

　　自我整合通常使用具有多个不同配置的单个模型。在梯形网络方法中，对干净样本的预测结果被用作随机扰动样本的代理标签，目的是开发能够抵制噪声的特性。Jerry Zhu 在 2007 年的教程中还考虑了一些其他算法。这包括生成模型（例如，对每一类假设高斯分布的模型）、半监督支持向量机和基于图的算法。

　　云中的半监督学习半监督学习正慢慢进入主流的机器学习服务。例如，Amazon Sagemaker Ground Truth 使用 Amazon Mechanical Turk 对部分图像集进行手动标记和边界确定，并使用神经网络训练功能对图像集的其余部分进行标记。类似的半监督学习方法可以用于其他类型的半监督学习，包括自然语言处理、分类和对多种服务的回归。但是，你必须为其中的大多数算法编写自己的链接代码。

　　Martin Heller 是InfoWorld 的特约编辑和审稿人。他曾是一名网络和Windows 编程顾问，1986 年至 2010 年间开发过数据库、软件和网站。

　　原文网址https://www.infoworld.com/article/3434618/semi-supervised-learningexplained.html

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容