将骑自行车的经验应用到骑摩托车上,就是迁移学习
谷歌人工智能AlphaGo战胜韩国棋手李世石的“人机围棋大战”,一度将人工智能概念推向风口浪尖。业内人士认为,在以“深度学习”技术为主流的全球人工智能科技竞赛中,中国专家所引领研究的“迁移学习”技术具备很强竞争力,代表了人工智能的发展趋势。
深度学习+小样本
“人机围棋大战”的背后,是人工智能领域机器学习技术的突破,即机器在模拟人脑运算方面取得的重大进展。实际上,人工智能技术已走过60年历程,直到近年机器学习技术中的“深度学习”技术取得突破,才迎来春天。
“深度学习”意为使机器模仿人脑神经网络的学习、判断和决策能力。比如,AlphaGo机器人以半年时间集中模仿学习了3000万步人类围棋大师的走法,并从自我对弈中积累胜负经验。
然而,“深度学习”局限性明显。原百度研究院副院长、地平线机器人CEO余凯坦言,肥沃的数据“土壤”才能“训练”出“深度学习”模型,但目前数据源、数据算法、数据应用的市场高度分离,未形成完善的“大数据+人工智能”产业链,导致人工智能技术的发展仍然面临数据源不足和技术垄断两大挑战。
“数据高度集中在谷歌、脸书、亚马逊、BAT等互联网巨头手中,长此以往,将导致人工智能技术垄断,反而不利于技术创新和国家安全。”香港科技大学计算机科学及工程学系主任杨强说。
杨强强调“深度学习+小样本”理念,即将大数据训练好的模型迁移到类似场景加以改进应用,打破了“逢模型必大数据”的局限。
“比如,将骑自行车的经验应用到骑摩托车上,就是‘迁移学习’。”杨强说。
2005年,微软举办的世界数据挖掘大赛中有关于搜索技术的竞赛题目,杨强团队利用“迁移学习”,将机器在其他领域的经验迁移过来。
在IT行业,“迁移学习”已有局部应用。
人工智能公司“第四范式”创始人戴文渊在百度负责名为“凤巢”的广告营销系统期间,利用“迁移学习”将百度搜索算法应用到问答社区“百度知道”,使后者点击率提升4成;腾讯将大规模在线电商推荐任务迁移到新领域,大大减少了数据需求量;微软也利用“迁移学习”分析了电商产品的舆情取向;香港科技大学利用“迁移学习”技术,将大数据训练出的对话模型迁移到具体行业的小数据领域,实现精准的“人机对话”,在服务业具有极强的应用价值。同时,杨强还在华为创立人工智能领域实验室,利用“迁移学习”技术研发了10多个智能移动终端的专利,并已注册。
“迁移学习”的应用障碍
多位受访专家认为,机器学习是当前人工智能技术的核心,“迁移学习”是机器学习技术发展的新阶段。杨强带领团队将研究不断深入,使中国占据了这一领域全球研究的制高点。
专家们认为,中国迫切需要发展“迁移学习”技术,并实现推广与应用。
但是,眼下“迁移学习”应用仍然有限。而造成这种情况的因素,是多方面的。
其实,在谷歌的人机围棋大战之前,人工智能少人问津。AlphaGo的胜利,源于谷歌团队此前收购了人工智能公司Deep Mind,获得了“深度学习”技术,Deep Mind人才主要来自多伦多大学,其研究长期默默无闻。这反映了人工智能长期“冷门”的现状,企业对前沿技术的敏感性不强。
由于人工智能产业处于发展初期,企业对“迁移学习”技术的需求也有限。目前,中国人工智能领域还没有一家以此为主业的上市公司,也没有出现一家龙头企业。百度虽然以人工智能为发展方向,但人工智能并非主要收入来源。
再者,产、学、研结合不够紧密。企业缺少渠道了解“象牙塔”技术,因此,难以应用先进研究成果。
如何保护隐私
专家认为,“迁移学习”技术的研究应用对中国具有战略意义,也是中国在人工智能科技方向获得全球领先地位的重要契机。
对于中国来说,“迁移学习”是国家实现科学技术弯道超车的契机。放眼人工智能产业,在人才、工业基础、研究环境、产业环境方面,中国和欧美的差距仍然较大,“迁移学习”是中国追赶发达国家的重要契机。
对于中小企业来说,“迁移学习”也意义重大。这项技术将赋能中小企业,打破人工智能技术垄断。中小企业在大数据条件不足的情况下,也能使用市场上购买的通用运算模型、结合自身小数据应用人工智能技术。这将使市场倾向于交易人工智能模型而非买卖敏感数据,也可避免大数据垄断者成为人工智能寡头,促进社会公平发展。
此外,可通过“迁移学习+云计算”解决隐私保护问题。在云计算领域,云服务上通常需要用户上传私密数据,利用“迁移学习”后,云端通用的机器学习模型可加载到个人客户端,再借助“迁移学习”技术实现个性化模型应用,避免敏感数据泄漏。
《瞭望东方周刊》记者王晓洁 郭宇靖/北京报道
……