谷歌的 Gemini:新的 AI 模型真的比 ChatGPT 更好吗?

跨境快讯 2024-02-03 00:01:54 woniu
2
导读:Google Deepmind 最近宣布了 Gemini,这是其新的 AI 模型,旨在与OpenAI 的 ChatGPT a>。虽然这两个模型都是“生成式人工智能”的例子,它学习寻找输入训练信息的模式来生成新数据(图片、文字或其他媒体),但 ChatGPT 是一个专注于生成文本的大型语言模型 (LLM)。

ChatGPT 是一款基于 GPT 神经网络(经过大量文本训练)的对话网络应用,与此类似,Google 也有一款名为 它基于名为 LaMDA 的模型(经过对话训练)。但 Google 现在正在基于 Gemini 进行升级。

Gemini 与 LaMDA 等早期生成式 AI 模型的区别在于,它是一个“多模态模型”。这意味着它可以直接使用多种输入和输出模式:除了支持文本输入和输出外,它还支持图像、音频和视频。因此,一个新的缩写词正在出现:LMM(大型多模式模型),不要与 LLM 混淆。

9 月,OpenAI 宣布了一款名为 GPT-4Vision 的模型,该模型也可以处理图像、音频和文本。然而,它并不是 Gemini 所承诺的完全多模式模式。
例如,虽然由 GPT-4V 提供支持的 ChatGPT-4 可以处理音频输入并生成语音输出,OpenAI 已确认 这是通过使用另一种名为 Whisper 的深度学习模型将输入的语音转换为文本来完成的。 ChatGPT-4 还使用不同的模型在输出时将文本转换为语音,这意味着 GPT-4V 本身纯粹处理文本。同样,ChatGPT-4 可以生成图像,但它是通过生成文本提示来实现的,这些文本提示会传递给一个名为 的单独深度学习模型 Dall-E 2,将文本描述转换为图像。相比之下,谷歌将 Gemini 设计为“原生多模式”。这意味着核心模型直接处理一系列输入类型(音频、图像、视频和文本),并且也可以直接输出它们。

判决
这两种方法之间的区别可能看起来很学术,但很重要。迄今为止,Google 技术报告和其他定性测试得出的总体结论是目前公开发布的 Gemini 版本(称为 Gemini 1.0 Pro)总体上不如 GPT-4,其功能与 GPT 3.5 更相似。

Google 还发布了 Gemini 的更强大版本,称为 Gemini 1.0 Ultra,并提供了一些结果,表明它比 GPT-4 更强大。然而,由于两个原因,很难评估这一点。第一个原因是Google尚未发布Ultra,因此目前无法独立验证结果。

难以评估谷歌声明的第二个原因是,它选择发布一段具有一定欺骗性的演示视频,如下所示。该视频显示 Gemini 模特在直播视频流中进行互动且流畅的评论。不过,正如彭博社最初报道的,视频中的演示并非实时进行。例如,模型事先学习了一些特定的任务,例如三杯和球技巧,Gemini 跟踪球位于哪个杯子下面。为此,它提供了一系列静态图像,其中演示者的手放在正在交换的杯子上。

未来可期
尽管存在这些问题,但我相信 Gemini 和大型多模态模型是生成式 AI 向前迈出的极其激动人心的一步。这既是因为它们的未来能力,也是因为人工智能工具的竞争格局。正如我在上一篇文章中指出的,GPT-4 接受了大约 5000 亿个单词的训练——基本上都是高质量的公开文本。

深度学习模型的性能通常是由模型复杂性和训练数据量的增加驱动的。这引发了如何实现进一步改进的问题,因为我们几乎用完了语言模型的新训练数据。然而,多模态模型以图像、音频和视频的形式开辟了大量新的训练数据储备。

像 Gemini 这样的人工智能可以直接根据所有这些数据进行训练,未来可能会拥有更强大的能力。例如,我希望在视频上训练的模型能够开发出所谓“朴素物理学”的复杂的内部表示。这是人类和动物对因果关系、运动、重力和其他物理现象的基本理解。

我也对这对人工智能竞争格局意味着什么感到兴奋。在过去的一年里,尽管出现了许多生成式 AI 模型,但 OpenAI 的 GPT 模型一直占据主导地位,展现出其他模型无法达到的性能水平。
谷歌的 Gemini 标志着一个主要竞争对手的出现,这将有助于推动该领域向前发展。当然,几乎可以肯定 OpenAI 正在开发 GPT-5,我们可以预期它也将是多模式的,并将展示出卓越的新功能。话虽这么说,我很高兴看到开源和非商业的大型多式联运模型的出现,我希望这种模型在未来几年能够出现。

我也喜欢 Gemini 实现的一些功能。例如,Google 发布了一个名为 Gemini Nano 的版本,该版本更加轻量级并且能够直接在手机上运行。像这样的轻量级模型可以减少人工智能计算对环境的影响,并且从隐私角度来看有很多好处,我相信这种发展将导致竞争对手效仿。
原文链接;https://theconversation.com/googles-gemini-is-the-new-ai-model-really-better-than-chatgpt-219526

版权声明: woniu 发表于 2024-02-03 00:01:54。
转载请注明: 谷歌的 Gemini:新的 AI 模型真的比 ChatGPT 更好吗? | 跨境湾

相关文章