有史以来最逼真的人形机器人

来源:电脑报
关键字:机器人,灵活,逼真
发布时间:2024-01-20 11:35

　　白二娃

　　马斯克最近放出了特斯拉第二代擎天柱（Optimus）人形机器人的视频，它看起来比一年前首次亮相时要灵活一些了。马斯克宣称未来人形机器人的需求能达200 亿台，市场前景远超汽车。

　　制造和人类一模一样的人形机器人，是对人类自身科技能力和技术极限的一种探索。1939 年纽约世界博览会，西屋电气公司公开展示了“Elektro”，它身高2.1 米，能够行走、说700 个单词, 能吹气球和吸烟。这可能是有史以来第一个公开展示的人形机器人。

　　84 年过去，技术的进步让人形机器人不再是为了娱乐目的而模仿人类的动作。现代人形机器人的本质是AI 系统在人类世界中最佳的载体，它们的设计考虑了更多通用功能，以下是历史上几种最逼真的人形机器人。

　　有一点恐怖的索菲娅（Sophia）

　　索菲娅是汉森机器人公司（HansonRobotics）开发的人形机器人，于2016年2 月首次公开亮相，因其丰富的表情而受到国际关注。它在CES 2017 及联合国人工智能向善全球峰会上接受采访并举行发布会，随后它成为联合国开发计划署的首位机器人创新大使。2017 年沙特阿拉伯授予索菲娅公民身份，成为第一个具有法人资格的机器人公民。

　　人形机器人与恐怖谷

　　在人工智能的热潮下，各种机器人产品层出不穷，如扫地机器人irobot、跳舞机器人阿尔法、情感机器人pepper 等，它们在某些领域都达到了相当智能的程度。我们在惊叹之余，在情感上却很难与它们产生共鸣，最大的原因在于这些机器人没有真正意义上的表情。

　　心理学研究表明，人际交往中70% 依靠的是情感交流，而不是逻辑、理性、信息的交流。因此，很多时候两个人之间根本无须说话，单凭表情就能迅速理解对方意图和体验对方的情感。这是因为人类具有一种叫“镜像神经元”的神经细胞，能够帮助我们进行语义之外的意义判断。

　　为什么说索菲娅具有革命性的意义呢？因为它的表情把人类从“恐怖谷”中解救出来了。

　　1970 年日本机器人专家森政弘提出了“恐怖谷”（Uncanny Valley）理论：和手机这种形状规整的智能设备比起来，人类更愿意接受与自己造型相似的机器人，比如毛绒娃娃；但当相似度接近某一个临界点，比如当人形机器人像尸体或僵尸时，人们就会感到不安甚至可怖；当仿生机器人与人类的相似度超越某个点变得极度相似时，人类对它们的看法又会转为正面。

　　根据索菲娅的创造者David Hanson介绍，为了获得最逼真的类人表情，他们研发了人造皮肤专利、制造了有74 个自由度的面部和28 个自由度的手臂、对对话目标的人脸和动作进行跟踪、在云后台的人工智能和神经网络支持下理解对方的表情并处理自然语言。最终根据语言同步调整嘴巴、面部和全身的动作。

　　从采访视频中，你可以感觉到索菲娅的情感表达刚刚跨在“恐怖谷”的节点上，有的时候你会觉得它表情生动自然，有时候的它又有些恐怖吓人。

　　更自然的阿梅卡（Ameca）

　　阿梅卡由英国Engineered Arts 公司制造，在CES 2022 上首次亮相。它的双眼内有摄像头、双耳内有麦克风，可以识别对方脸部的情绪和声音。它是为了机器人与人交互研究而建造，拥有更逼真的外表就能获得人类更自然的反馈。

　　人类脸部肌肉多达几十块，帮助人类精确展示出喜怒哀乐的单一表情，以及在不同外界刺激下做出的复合类表情。因此，人的面部表情很难被机器人模仿。研发者将人类表情进行全方位扫描，用AI 技术将表情复刻于机器人之上，使冰冷的机器也拥有了一套完整的人类“表情包”。至此机器人的历史由只是外表与人类相似的第一阶段，迈入了可以表现人类喜怒哀乐等情绪的第二阶段。

　　阿梅卡的表情和动作逼真自然，有时还会耸肩表示一下自己的幽默感。它已经越过了“恐怖谷”阶段，与它交谈时不会感到不适。目前阿梅卡还不能行走，将来它可以用于接待和问候、展览、研发和产品测试实验室等用途。

　　留胡子的Geminoid DK

　　日本团队2011 年制造的Geminoid DK 完全模拟了丹麦奥尔堡大学的教授Henrik Scharfe，其逼真的面部表情让所有人都感到惊讶。它还是第一个留胡子的人形机器人，这些胡子来自教授本人，由手工植入硅胶皮肤。与其他人形机器人不同，它靠气动执行器来执行动作，表情则是直接复刻位于后台的模特，而非程序生成，这让Geminoid DK 的表情更合理，但技术上并没有太大的突破。

　　机械飞升的宾纳48（Bina48）

　　宾纳48 是机器人专家大卫· 汉森受特雷塞运动（TerasemM o v e m e n t）创始人M a r t i n eRothblatt 委托制造的一款半身机器人，完全复刻了她（Rothblatt 是美国薪水最高的女性CEO 之一）妻子（Bina）的外貌。“48”是指其每秒48 EB 的处理速度和48 EB 的内存。机器人的后台数据库中有个“思维文件”，其中编译保存了Bina 的生前记忆、信仰、习惯动作和思想，以及她在社交媒体上的全部互动信息。在交互中宾纳48 可以展现Bina 的个性和思维，然而由于当时的大语言模型技术还不成熟，宾纳48 时常会回避问题。

　　特雷塞运动是一家美国的基金会，他们致力于推动数码拷贝技术的发展，最终实现将人类意识完全上传至电脑中，以实现数字永生。他们宣称未来20 年内就能实现思维克隆，把个人身份和意识的因素，如个性特征、个人经历、价值观和信仰、情感模式和知识库等信息全部保存到“思维文件”中，用于创建出真人的数字复制品。已经有超过56000 人签署协议，愿意在技术条件许可的情况下将自己的意识以数字形式保存，从而转变成硅基生命实现机械飞升。

　　特斯拉机器人（Optimus）

　　2021 年8 月，埃隆·马斯克放出了他和一个穿着机器人外套的演员一起跳舞的视频，让不少人错误地估计了特斯拉机器人的研发水平。当2022 年的发布会上擎天柱（Optimus）机器人首次亮相时，一台只能迟缓地行走和挥手的机器人和另一台无法运动的精致模型让粉丝们大失所望。但马斯克仍然保证这款机器人“最终会像广告那样”跳舞，而且售价仅2万美元。2023 年升级后的擎天柱机器人取得了不少进展。它可以在Cybertrucks（特斯拉的电动皮卡）研发车间中稳步行走，并能做出下蹲和搬运动作。机器人的手部感知和控制能力也进步明显，它可以自动分拣物品，还可以用合适的力量拾取鸡蛋。

　　特斯拉认为自动驾驶的汽车本质上就是机器人，他们的全自动驾驶算法可以依赖视觉技术来实现环境感知并规划路径。因此机器人不是在车间里简单行走，而是打通了特斯拉的全自动驾驶算法与机器人的底层模块，实现了与特斯拉汽车的部分算法共享，它们在边走边记忆环境信息。

　　不过由于这次擎天柱机器人并没有出现在现场，仅靠宣传片并不能让人相信特斯拉机器人可以按预期的那样量产。

　　总的来说人形机器人仍在等待一个“GPT-3 时刻”，现在的人形机器人还没有找到一条行之有效的路线。

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容