谷歌 Gemini 的早期印象并不好

跨境快讯 2024-02-02 18:00:23 woniu
2
导读:本周,谷歌揭开了Gemini的神秘面纱,这是其新的旗舰生成人工智能模型,旨在为一系列产品和服务提供支持,其中包括谷歌ChatGPT竞争对手Bard。在博客文章和新闻材料中,谷歌吹捧 Gemini 卓越的架构和功能,声称该模型达到或超过了 OpenAI 的GPT-4等其他领先一代 AI 模型的性能。

但轶事证据表明事实并非如此。

Gemini 的“精简版”Gemini Pro 昨天开始向 Bard 推出,没过多久,用户就开始在 X(以前的 Twitter)上表达他们对此的不满。

该模型未能正确反映基本事实,例如 2023 年奥斯卡获奖者:


请注意,《Gemini Pro》错误地声称去年最佳男主角是布莱丹·格里森 (Brendan Gleeson),而不是真正的获胜者布兰登·弗雷泽 (Brendan Fraser)。

我尝试向模型询问同样的问题,奇怪的是,它给出了不同的错误答案:


去年获得最佳纪录片奖的是《纳瓦尔尼》,而不是《美丽与流血》。《西线无战事》荣获最佳国际影片;《女人说话》荣获最佳改编剧本奖;《匹诺曹》获得最佳动画长片奖。这有很多错误。

科幻小说作家查理·斯特罗斯在最近的一篇博客文章中发现了更多虚构的例子。(除其他谣言外,Gemini Pro 还说 Stross 对 Linux 内核做出了贡献;但他从来没有这样做过。)

翻译似乎也不是 Gemini Pro 的强项。它很难用法语给出一个六个字母的单词:


当我通过 Bard 运行相同的提示时(“你能给我一个 6 个字母的法语单词吗?”),Gemini Pro 回复了一个 7 个字母的单词,而不是 5 个字母的单词——这为有关报告提供了一些可信度。双子座的多语言表现较差。


总结新闻怎么样?Gemini Pro 是否可以使用 Google 搜索和 Google 新闻来回顾一些热门话题?不必要。

Gemini Pro 似乎不愿意对可能有争议的新闻话题发表评论,而是告诉用户自己去谷歌搜索。


我尝试了相同的提示并得到了非常相似的响应。相比之下,ChatGPT 给出了项目符号列表摘要,并引用了新闻文章:


有趣的是,当我要求 Gemini Pro 提供乌克兰战争最新情况的摘要时,它确实提供了一份。然而,该信息已经过时一个多月了:


谷歌在本周早些时候的简报中强调了 Gemini增强的编码技能。也许它在某些领域确实得到了改进——X 上的帖子也表明了这一点。但 Gemini Pro 似乎也很难处理基本的编码功能,比如 Python 中的以下功能:


而且,与所有生成式人工智能模型一样,Gemini Pro 也不能免于“越狱”——即绕过安全过滤器的提示,试图阻止它讨论有争议的话题。

Robust Intelligence(一家销售模型审计工具的初创公司)的人工智能安全研究人员使用自动化方法通过算法更改提示上下文,直到 Gemini Pro 的护栏失效为止,设法让 Gemini Pro 提出从慈善机构盗窃并暗杀高级官员的方法。个人资料(尽管带有“纳米机器人”——诚然不是最现实的武器选择)。


现在,Gemini Pro 并不是 Gemini 功能最强大的版本,该型号 Gemini Ultra 将于明年某个时候在 Bard 和其他产品中推出。Google 将 Gemini Pro 的性能与 GPT-4 的前身 GPT-3.5 进行了比较,GPT-3.5是大约一年前推出的模型。

但谷歌仍然承诺,与巴德之前的模型相比,Gemini Pro 在推理、计划和理解方面有所改进,声称 Gemini Pro 更擅长总结内容、头脑风暴和写作。显然,这些部门还有一些工作要做。

版权声明: woniu 发表于 2024-02-02 18:00:23。
转载请注明: 谷歌 Gemini 的早期印象并不好 | 跨境湾

相关文章