谷歌大模型能“雪耻”吗

  • 来源:电脑报
  • 关键字:谷歌,模型,地位
  • 发布时间:2024-01-05 11:07

  Shoot

  尝试回到领先地位

  一度被动应战Open AI 的谷歌,现在欲借多模态预训练大模型Gemini 重回AI 领导者地位。

  今年4 月,谷歌及其母公司Alphabet CEO 桑达尔·皮查伊(Sundar Pichai)就曾透露已经将谷歌大脑、DeepMind 两大AI 团队合并,正在开发谷歌下一代大模型。8 个月后,“Gemini 1.0”上线,并像新手机售卖一样配备了三个不同版本“GeminiNano”“Gemini Pro” 和“Gemini Ultra”, 分别对应端侧设备、聊天机器人Bard 和更加复杂的任务。

  在谷歌口中,Gemini 1.0 是谷歌目前能力最强的AI 模型,有能力对标今年3 月上线的GPT-4。在官方放出的对比数据中,尚未上线的Gemini Ultra在综合能力、推理能力、数学能力、代码能力、图像理解能力的榜单中确实几乎全面超过GPT-4——不过分差都在个位数,并没有“碾压”的态势。

  除了已经在用户端常见的文本功能,发布会现场的演示中谷歌重点展示了Gemini Ultra 在挑战多模态推理任务方面的能力,然而,这个演示视频很快就成了引发质疑的导火索。

  在演示视频中,Gemini Ultra 对手写图文的理解快速、准确得令人惊讶。面对工作人员给出的三张太阳系星球的简笔画,并问“这是正确的摆放顺序吗?”,Gemini Ultra 的回答不仅准确地识别了手绘内容,并结合天文学知识快速给出正确顺序该是如何。这种“文理兼修”的能力看起来也符合谷歌对其的评价:Gemini 是第一个在MMLU(海量多任务语言理解)上超过人类专家的模型。MMLU 是一套著名基准,包含一系列考试测试知识和推理。

  “文理兼修”背后的提示词

  不过从之后谷歌放出的完整解析文件中我们才知道,这种识别手写内容、解答抽象问题的能力并不如表面这么智能。

  谷歌发布会一结束,AI 科技企业HuggingFace 的技术主管菲利普· 施密德(PhilippSchmid)这样的业内大佬直指其夸大了Gemini 的测评成绩,同时发布会现场的演示视频也被爆出不是实时演示而是提前录制并剪辑过。

  随后,谷歌大方承认视频的确不是实时的,但这是为了现场效果,随后也给出了几份比较完整的解析文件以证明Gemini 的确有能力。这是真的吗?以上面提到的简笔画识别为例,其实工作人员不仅仅问了一个抽象问题,完整版的问句其实是一系列非常照顾Gemini 理解方式的句子:“这是正确的摆放顺序吗?考虑它们与太阳的距离并解释你的推理。”

  图片对象、知识点和回答要求都被工作人员完整提到,这就相当于考题旁边就写着解题思路,Gemini 只是在理解问题含义的基础上作答而已。总的来说,Gemini 的确具有空间推理和专业知识能力,但离不开提示词帮助,与其说它是史上最强AI 模型,不如说它更像一个需要老师循循善诱的小孩。

  此外, 能与GPT-4 抗衡的版本GeminiUltra,仍在进行广泛的信任和安全检查,明年初才会向开发者和企业客户推出。这意味着短期内业界无法对其进行测试、复制类似的问题,更无法评估这一版本的真实能力,也导致这次发布会更像是出自商业的考虑。

  作为AI 技术储备最深厚的科技公司之一,谷歌今年2 月仓促发布对标ChatGPT 的聊天机器人助手Bard,结果其不仅把错误的知识提供给用户,和ChatGPT 的差距更令市场大跌眼镜;5 月谷歌将底层模型迭代至PaLM-2,亦未能追上ChatGPT 的能力。而在谷歌疲于追赶之时,Open AI 已经在着手开发GPT-5 大模型……这个追赶过程只会更加残酷。

关注读览天下微信, 100万篇深度好文, 等你来看……