机器学习之半监督学习释义

  • 来源:计算机世界
  • 关键字:亚马逊,模型,缺点
  • 发布时间:2019-12-25 22:26

  在 2017 年 写 给 亚 马 逊股 东 的 信 中,Jeff Bezos 提到了亚马逊语音智能助理Alexa 的一些有趣之处:在美国、英国和德国,通过改进 Alexa 的机器学习组件以及使用半监督学习技术,在过去 12 个月里我们把Alexa 的口语理解能力提高了 25% 以上。(利用这些半监督学习技术,实现相同精度所需的标记数据量减少了40 倍!)

  鉴于这些结果,在我们自己的分类问题上尝试半监督学习可能会很有趣。那么,什么是半监督学习呢?它有什么优缺点?我们怎样使用它?什么是半监督学习?

  顾名思义,半监督学习介于受监督学习和无监督学习之间。受监督学习采用带有正确答案(目标值)的标记过的训练数据。在学习过程之后,将得到一个经过调优的权重集的模型,这可以用于预测尚未标记的类似数据的答案。

  半监督学习同时使用标记和未标记的数据来拟合模型。在某些情况下,比如Alexa 的添加未标记的数据的确提高了模型的准确性。在其他情况下,未标记的数据可能会使模型更差。正如我将在下面所讨论的,在不同的数据特性条件下,不同的算法会有不同的缺点。

  一般来说,标记数据需要花费金钱和时间。这并不总是问题,因为有些数据集已经有了标记。但是如果您有很多数据,其中只有一些是标记过的,那么半监督学习这种技术很值得一试。

  半监督学习算法半监督学习至少可以追溯到 15 年前,甚至更长;威斯 康 星 州 大 学 的 Jerry Zhu在 2005 年写了一份文献调查。近年来,半监督学习再次兴起(不仅是在亚马逊),因为它降低了重要基准的错误率。

  DeepMind 的 Sebastian Ruder 在 2018 年 4 月写了一篇博文,介绍了一些半监督学习算法,即创建代理标签的算法:包括自我训练、多视图学习和自我整合。

  自我训练使用模型自己对未标记数据的预测结果,将其添加到已标记的数据集中。实际上,这为预测的置信水平设置了一些阈值,通常为 0.5甚至更高,高于该阈值时,相信预测结果并将其添加到已标记的数据集中。不断地重新训练这个模型,直到没有更多可信的预测结果为止。

  这就回避了用于训练的实际模型的问题。和大多数机器学习一样,你可能会尝试每一个合理的候选模型,以期找到一个能很好工作的模型。自我训练在一定程度上是成功的,可谓是好坏参半。最大的缺点是模型无法纠正自己的错误:例如,对异常值高度自信(但错误)的预测可能会破坏整个模型。

  多视图训练在不同的数据视图上训练不同的模型,其中可能包括不同的特征集、不同的模型体系结构和不同的数据子集。多视图训练算法有很多,其中最著名的是三视图训练。本质上,可以创建三个不同的模型;每当两个模型同意一个数据点的标签时,该标签就会被添加到第三个模型中。与自我训练一样,当没有更多的标签被添加到任何一个模型时,就停止了。

  自我整合通常使用具有多个不同配置的单个模型。在梯形网络方法中,对干净样本的预测结果被用作随机扰动样本的代理标签,目的是开发能够抵制噪声的特性。Jerry Zhu 在 2007 年的教程中还考虑了一些其他算法。这包括生成模型(例如,对每一类假设高斯分布的模型)、半监督支持向量机和基于图的算法。

  云中的半监督学习半监督学习正慢慢进入 主 流 的 机 器 学 习 服 务。例 如,Amazon Sagemaker Ground Truth 使 用 Amazon Mechanical Turk 对部分图像集进行手动标记和边界确定,并使用神经网络训练功能对图像集的其余部分进行标记。类似的半监督学习方法可以用于其他类型的半监督学习,包括自然语言处理、分类和对多种服务的回归。但是,你必须为其中的大多数算法编写自己的链接代码。

  Martin Heller 是InfoWorld 的 特 约 编 辑 和 审稿 人。 他 曾 是 一 名 网 络 和Windows 编程顾问,1986 年至 2010 年间开发过数据库、软件和网站。

  原文网址https://www.infoworld.com/article/3434618/semi-supervised-learningexplained.html

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: