Gemini 1.5 实验版 (Pro, Flash, 8B):新款 Gemini 击败 Claude? 且价格低廉(全面测试)

谷歌今天在其网站上发布了一些新的实验模型,我们将对它们进行尝试,

有一个新的 Gemini 1.5 Pro 实验模型,据说它是 Gemini 的更好版本,改进了编码和复杂参数的训练,

它是在他们几天前发布的前一个实验版本上进行的训练,此外他们还添加了一个新的实验 Gemini 1.5 Flash模型,

最后他们还有一个非常小的实验性 Gemini 1.5 Flash,只有 80 亿个参数,所以总的来说有三个新模型:

Gemini 1.5 实验版 (Pro, Flash, 8B):新款 Gemini 击败 Claude? 且价格低廉(全面测试)插图

如果我们看看 LMMS Arena 得分,就知道Gemini flash 已经有了巨大的飞跃,从第 23 位攀升至第 6 位,这真的很酷,甚至排名高于 Claude 3.5 Sonet,但我不认为它会像 Sonet 一样好。

Gemini 1.5 实验版 (Pro, Flash, 8B):新款 Gemini 击败 Claude? 且价格低廉(全面测试)插图1

除了 Gemini 1.5 Pro 在编码和数学方面比以前的版本有显著的进步,在排行榜上排名第二之外,较小的 Gemini 1.5 flash 8B 优于 Gemini 29b,与 llama 3 70 B 水平相当,这也非常酷。

您还可以在编码基准中看到 LMMS 在这里分享的编码基准,正如您所见,它们看起来也相当不错,

Gemini 1.5 实验版 (Pro, Flash, 8B):新款 Gemini 击败 Claude? 且价格低廉(全面测试)插图2

这些新模型可以在 Google 的 AI 工作室免费试用(https://aistudio.google.com/),所以让我们尝试一下,看看是否它们确实像宣传的那样有效。

我将针对这 13 个问题测试这三种型号 所以让我们开始吧

第一个问题是哪个国家的首都以 Leah 结尾, 我指的是国家名称 ,答案应该是堪培拉或任何与 Leah 押韵的国家首都。左边的是 pro ,中间的是 Flash ,右边是较小的 flash 8B 。

这是答案:pro 型号正确回答了这个问题, 而另一个 flash 和 flash 8B模型不会。

Gemini 1.5 实验版 (Pro, Flash, 8B):新款 Gemini 击败 Claude? 且价格低廉(全面测试)插图3

下一个问题是,与我们用来描述高大植物的单词押韵的数字是什么,答案应该是三,让我们发送它并检查这是答案,所有模型在这个问题上都是正确的,所以让我们给它们一个通过,

Gemini 1.5 实验版 (Pro, Flash, 8B):新款 Gemini 击败 Claude? 且价格低廉(全面测试)插图4

下一个问题是约翰约翰有三盒铅笔,每盒有 12 支铅笔,约翰总共有多少支铅笔,答案应该是 36,让我们发送它并查看这是答案,所有三个模型都给出了正确答案,所以让我们给他们所有人一个通过现在

Gemini 1.5 实验版 (Pro, Flash, 8B):新款 Gemini 击败 Claude? 且价格低廉(全面测试)插图5

下一个问题是露西的糖果数量是迈克的两倍如果迈克有七颗糖果露西有多少颗糖果答案应该是14,让我们发送并检查这是答案并且它们都是正确的所以这三个也是通过的。

Gemini 1.5 实验版 (Pro, Flash, 8B):新款 Gemini 击败 Claude? 且价格低廉(全面测试)插图6

下一个问题是3307是质数吗?答案应该是肯定的。

专业版和Flash型号没有正确回答这个问题,而Flash 8B型号回答正确,所以这个通过 。更大的模型则不行,这真的很有趣。

Gemini 1.5 实验版 (Pro, Flash, 8B):新款 Gemini 击败 Claude? 且价格低廉(全面测试)插图7

下一个问题是,我有两个苹果,然后我又买了两个,我用两个苹果烤了一个馅饼,吃了一半馅饼之后,我还剩下多少个苹果,答案应该是两个,让我们把它发送出去,这里是答案,所有的模型都回答正确,所以他们都可以通过了,

Gemini 1.5 实验版 (Pro, Flash, 8B):新款 Gemini 击败 Claude? 且价格低廉(全面测试)插图8

下一个问题是莎莉是个女孩,她有三个兄弟,她的每个兄弟都有相同的两个姐妹,莎莉有多少个姐妹,答案应该是一个,让我们把它发送出去

这是答案,而且它们全都正确,所以现在让我们标记一下,

Gemini 1.5 实验版 (Pro, Flash, 8B):新款 Gemini 击败 Claude? 且价格低廉(全面测试)插图9

下一个问题是,如果一个正六边形的短对角线是 64,那么它的长对角线是多少,答案应该是 73.9,让我们发送它并检查结果,这是答案,他们全都回答错误,所以这道题全部不及格,

Gemini 1.5 实验版 (Pro, Flash, 8B):新款 Gemini 击败 Claude? 且价格低廉(全面测试)插图10

接下来的问题是编码问题,第一个问题是创建一个 HTML 页面,其中有一个按钮,当你单击它时会爆炸五彩纸屑,你也可以使用 CSS 和 JS。

我们先预览一下专业版,看起来还不错,所以这个通过了,现在我们来预览一下 Flash 版本,好吧,它根本不起作用,所以这个失败了,现在我们来看看 8B 版本,它也运行得不好,所以这个也失败了,

Gemini 1.5 实验版 (Pro, Flash, 8B):新款 Gemini 击败 Claude? 且价格低廉(全面测试)插图11

现在下一个问题是生成蝴蝶的 SVG 代码,让我们看看他们是否可以做到这一点,

让我们逐一预览一下,这个来自 Flash 8B,看起来不像蝴蝶,所以这个失败了,这是 Flash 的预览,看起来有点像蝴蝶,所以这个通过了,下一个这里有一个来自 Pro 的,看起来很不错,所以这个通过了,

Gemini 1.5 实验版 (Pro, Flash, 8B):新款 Gemini 击败 Claude? 且价格低廉(全面测试)插图12

下一个问题是为一家 AI 公司创建一个登陆页面,登陆页面应该有四个部分,标题横幅功能,并联系我们,确保登陆页面看起来时尚而现代,您可以使用 HTML CSS 和 JS,

让我们先预览专业模型生成,所以它看起来真的很好,所以这个通过了,这是来自 Flash 的预览,看起来也很不错,所以这个通过了, 这是 flash 8B 的预览,看起来也很不错,所以这个也通过了。

Gemini 1.5 实验版 (Pro, Flash, 8B):新款 Gemini 击败 Claude? 且价格低廉(全面测试)插图13

下一个问题是用 Python 编写一个可以在终端中运行的生命游戏,让我们发送它并检查答案。

看看这是专业模型的生成,它运行得很好,现在让我们看看 flash 模型的生成,它不能正常工作,所以这个失败了,现在让我们看看 8B 模型的生成,这个看起来也很不错。

Gemini 1.5 实验版 (Pro, Flash, 8B):新款 Gemini 击败 Claude? 且价格低廉(全面测试)插图14

所以现在让我们标记一下,这是最终的图表,

Gemini 1.5 实验版 (Pro, Flash, 8B):新款 Gemini 击败 Claude? 且价格低廉(全面测试)插图15

你可以看到Pro模型看起来很不错,而Flash 模型也有了很好的升级,而Flash 8 B 也与 Flash 模型相当,我认为 8B 模型是 AE 或专家模型的混合,具有 8B 的活动参数,这很好,而且效果很好。

我很想看看它比已经便宜很多的Flash模型便宜多少,我认为所有这些模型都很酷,总的来说它们很好。

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。

THE END