什么是机器学习？源于数据的软件！

来源:计算机世界
关键字:机器学习,数据,软件
发布时间:2017-09-22 10:17

　　建立从数据中学习的系统是解决复杂问题的良方，应为其提供足够的、有意义的数据用于学习

　　最近您可能不止一次听到“机器学习”这个词。机器学习经常与人工智能这个词互换使用，它实际上是人工智能的子集，源自1950年代后期的麻省理工学院。

　　不管您知不知道，您每天都会遇到机器学习。Siri和Alexa语音助手、脸书和微软的面部识别、亚马逊和Netflix建议、防止自动驾驶汽车撞车的技术，等等——所有这些都是机器学习进步的结果。

　　虽然目前还远没有像人脑那样复杂，但基于机器学习的系统已经取得了一些令人印象深刻的成就，例如在国际象棋、危险边缘、围棋、德州扑克等比赛中击败了人类。

　　从十几年的过度炒作和不切实际（不光彩的“人工智能寒冬”）中缓过劲来，人工智能和机器学习过去几年开始强劲复苏，这要归功于一系列的技术突破，低成本计算能力爆炸式的发展，以及为机器学习模型训练提供了大量的数据。

　　自学软件

　　那么机器学习到底是什么呢？让我们先来看看它不是什么：常规的手工编码的人工编程计算应用程序。

　　传统的软件能够很好地执行指令，但即时处变能力很差，机器学习系统与之不同，它实际上对自己进行编程，对已有的实例进行归纳借鉴，开发出自己的指令。

　　典型的例子是图像识别。向机器学习系统展示足够多的狗的照片（标记为“狗”），以及猫、树、婴儿、香蕉，或者任何其他物体（“不是狗”）的照片，如果系统训练的非常好，它最终能够很好的识别出狗，而且不需要人类告诉它狗是什么样子。

　　电子邮件程序中的垃圾邮件过滤器是机器学习发挥作用很好的一个例子。在接触了数以百万计的垃圾邮件样本以及非垃圾邮件样本之后，它学会了怎样识别那些讨厌的有害信息的关键特征。它虽然不完美，但通常是相当准确的。

　　有监督和无监督学习

　　把一组庞大的训练数据提交给机器学习算法，检查其输出，然后不断调整其设置，直到输入给它以前从未见过的数据，它能产生出预期的结果为止——这类机器学习被称为有监督学习。（这类似于过滤器意外地滤除合法消息，在收件箱中单击“非垃圾邮件”按钮的情形。您这样做的越多，过滤器的准确度就越高。）

　　最常见的有监督学习任务包括分类和预测（即“回归”）。垃圾邮件检测和图像识别都属于分类问题。预测股票价格是回归问题的典型例子。

　　第二类机器学习被称之为无监督学习。系统通过大量数据来学习“正常”的数据是什么样子，这样，它就能够检测到异常和隐藏模式。在您真的不知道要寻找什么的时候，可以使用无监督机器学习，所以不能训练系统去寻找什么。

　　无监督机器学习系统可以从大量数据中识别出某种模式，速度比人类快得多，这就是为什么银行利用它来发现欺诈交易，营销人员部署它来找到具有相似属性的客户，安全软件使用它来检测网络上的恶意活动。

　　聚类和关联规则学习是无监督学习算法的两个例子。聚类是客户细分的秘密武器，而关联规则学习则用于推荐引擎。

　　机器学习的局限性

　　因为每一个机器学习系统都有自己的连接，因此，可以把某一个系统的实际工作看成是一个黑盒。你不能总是对整个过程进行逆向工程剖析，以发现您的系统为什么能区分一个哈巴狗和波斯狗。只要它能工作就行，其他并不重要。

　　但是一个机器学习系统只有接触到高质量的数据才能更好地工作——这是一个典型的“垃圾输入，垃圾输出”的例子。如果训练不够，或者没有接触足够多的数据集，机器学习算法产生的结果不仅是错误的，而且是带有歧视性的。

　　惠普早在2009年就遇到了麻烦，HP MediaSmart笔记本的网络摄像头采用了面部识别技术，却识别不出非裔美国人的人脸。2015年6月，Google Photos应用程序有误的算法把两个黑人错误的标记成大猩猩。

　　另一个有趣的例子：微软命运多舛的Taybot，2016年3月的一次实验旨在看看人工智能系统能否通过学习录音来模仿人类对话。在不到一天的时间里，那些恶意的推特恶人们就把Tay调教成了一个满嘴脏话的聊天机器人。这就是不好的训练数据的例子。

　　机器学习词典

　　而机器学习确实是人工智能最尖端的技术。与机器学习密切相关的其他术语是神经网络、深度学习和认知计算。

　　神经网络。一种计算机架构，旨在模仿人脑中神经元的结构，每个人工神经元（微电路）都与系统内的其他神经元相连接。神经网络按层排列，一层的神经元把数据传递给下一层的多个神经元，如此继续，直至数据到达输出层。在最后一层，神经网络给出最好的猜测，比如说，那个看起来像狗的东西是什么，还给出可信得分。

　　有多种类型的神经网络用于解决不同类型的问题。有大量分层的网络被称为“深度神经网络”。神经网络是机器学习应用情形中最重要的工具，但不是唯一的工具。

　　深度学习。这实际上是一种激励型的机器学习，使用多层（深层）神经网络，根据“有缺陷”或者不完整的信息来做出决定。深度学习系统DeepStack去年十二月击败了11名职业扑克选手——它不断地重新计算每轮下注后的策略。

　　认知计算。这是Watson的创造者IBM喜欢用的术语，这一超级计算机2011年在危险边缘节目比赛中完胜人类。在IBM看来，认知计算和人工智能之间的差异是，认知计算并不是要取代人类智能，而是设计来增强它——使医生更准确地诊断病情，财务管理者能够给出更明智的建议，律师更快地搜索判例法，等等。

　　当然，这是一种非常肤浅的概述。如果您想要更深入地了解错综复杂的人工智能和机器学习，那么可以从华盛顿大学Pedro Domingos还算不错的教程开始，或者从Adam Geitgey的Medium系列文章入手，InfoWorld的Martin Heller的“深度学习到底意味着什么”也是很好的选择。

　　虽然人工智能有太多的炒作，但不夸张地说，机器学习以及与它相关的技术正在改变我们所知的世界。最好在机器具有自我意识之前就彻底了解它。

　　当Mark Zuckerberg还带着尿不湿的时候，Dan Tynan就开始技术类写作了。作为一名多产的自由作家，他的文章发表在70多种出版物上，他是雅虎技术的前任总编辑，曾长期担任InfoWorld和PCWorld的特约编辑。

　　原文网址：

　　http：//www.infoworld.com/article/3214424/machine-learning/what-is-machine-learning-software-derived-from-data.html

　　作者/Dan Tynan 编译/杨勇

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容