生成式AI的崛起14：谷歌年底力挽狂澜

Google Bard

– by Mojahid Mottakin from Unsplash

眼看着整个2023年的风光都被ChatGPT全部抢完的时候，谷歌在最后一个月进行了一次绝地反击，拿出了在各项数据上全面超越GPT4 的至尊模型 Gemini Ultra。

当地时间12月6日，谷歌CEO桑达尔・皮查伊官宣 Gemini 1.0 版正式上线。

这次发布的 Gemini 大模型是原生多模态大模型，是谷歌大模型新时代的第一步，所谓的原生，并不像之前的GPT先从文本开始训练，在后面推广到其他模态，而是从一开始就是文本、视频、音频同时训练并在过程中建立联系。这就让多模态从一开始就更加自然的形成，从而达到更加优质的交互形式和表现。

这次Gemini发布了三个不同的量级：

能力最强的 Gemini Ultra，也就是谷歌用来演示的模型（事后有爆说视频存在剪辑，交互能力被扩大…)
适用于多任务的 Gemini Pro
适用于特定任务和端侧的 Gemini Nano

与此同时，面向用户免费开放的Bard，已经装备了 Gemini Pro。今天打开bard.google.com, 发现输入框左侧已经出现了提供了上传图片的按钮。在谷歌的宣传中，Bard用户还将会在明年年初用上Gemini Ultra版本。

回来说说宣传视频中的Gemini Ultra的表现吧，首先就是多模态的能力非常出彩，演示人员一边画，Gemini就能实时的给出准确的表述，甚至包括物品的材质判断都非常准确。另外更加惊艳的是它的推理能力，包括猜纸团，对着世界地图问答这两个交互游戏中，Gemini都给出了非常好的表现。

按照谷歌释放的信息，谷歌对 Gemini 模型进行了严格的测试，并评估了它们在各种任务中的表现。从自然图像、音频和视频理解，到数学推理等任务，Gemini Ultra 在大型==语言模型==研发被广泛使用的 32 个学术==基准==测试集中，在其中 30 个测试集的性能超过当前 SOTA 结果。

另外，Gemini Ultra 在 MMLU（大规模多任务语言理解数据集）中的得分率高达 90.0%，首次超越了人类专家。MMLU 数据集包含数学、物理、历史、法律、医学和伦理等 57 个科目，用于测试大模型的知识储备和解决问题能力。

经过训练，Gemini 1.0 可以同时识别和理解文本、图像、音频等，因此它能够更全面地理解输入中信息的细节，也能回答与复杂主题相关的问题。因此，它特别擅长对数学和物理等复杂学科的问题进行推理。

比如一位老师画了一个滑雪者从斜坡上下来的物理问题，一位学生则提出了一个解决方案来计算滑雪者在斜坡底部的速度。利用Gemini的多模态推理能力，该模型能够读懂凌乱的笔迹，正确理解问题的表述，将问题和解决方案都转换为数学公式，识别出学生在解决问题时出错的具体推理步骤，然后给出问题的正确解决方案。

除此之外，Gemini 还可以用作更高级编码系统的引擎。两年前，谷歌推出了 AlphaCode，这是第一个在编程竞赛中达到竞争性水平的==人工智能==代码生成系统。

使用 Gemini 的专门版本，谷歌创建了更先进的代码生成系统 AlphaCode 2，它擅长解决超出编码范围、涉及复杂数学和理论计算机科学的竞争性编程问题。

面对OpenAI与微软的强力同盟，谷歌充分利用了自己的长产品线优势，可以预料到谷歌将会在后续的产品发布中，陆续会将这一强大模型推广到旗下的所有服务和产品。

中午按捺不住激动的心情，去Bard尝试了一把装备了Gemini Pro的新Bard，体验非常不错。作为米兰球迷，我拿了一张AC米兰夺得19冠的一张海报给它，结果它不仅给出了非常完整的说明，而且还进行了推理并结合我所在的地理位置给出了合理的猜测，给人非常大的惊喜。

这张图是一张海报，上面写着“我们是冠军”，下方是 AC Milan 的队徽和 19 个奖杯的列表。海报的背景是红黑相间的条纹，代表 AC Milan 的队服颜色。
这张图的主题是 AC Milan 在 2021-2022 赛季获得意大利足球甲级联赛冠军。海报上的文字和奖杯列表都表明了 AC Milan 取得了这一成就。
海报的作者是 Marinella Marinelli，她是 Airlite® 公司的特种项目负责人。Marinelli 是 AC Milan 的忠实粉丝，她创作这张海报是为了庆祝 AC Milan 的胜利。
具体来说，这张图可以从以下几个角度来解读：
从足球的角度来看，这张图是 AC Milan 球迷的狂欢。海报上的文字和奖杯列表都表达了球迷的喜悦和自豪
从商业的角度来看，这张图是 Airlite® 公司的营销活动。海报上印有 Airlite® 的标志，这表明 Airlite® 与 AC Milan 建立了合作关系。
从社会文化的角度来看，这张图可以被视为一种社会现象。AC Milan 是意大利最受欢迎的足球俱乐部之一，其胜利具有广泛的社会影响。
根据您提供的信息，您目前在xx。因此，这张图也可以被视为xx AC Milan 球迷的狂欢。

我也拿了视频中的石头、剪子、布的图片给它，但这一轮Bard没能识别出来。

不过我也试了一把它的数学计算，结果却不怎么让人满意。我拿了一道小学应用题，希望Bard能给出类似的题目，结果题目是出来了，但计算却错的离谱。仔细查看发现它的方程式是列对了，但是计算错了。看来Gemini Pro跟Ultra能力上还是相差很大。

**题目：**

小明买了 3 张桌子和 4 把椅子，共花了 220 元。小红买了 4 张桌子和 5 把椅子，共花了 280 元。1 把椅子多少元？1 张桌子多少元？

**解答：**

设 1 把椅子的价格为 x 元，1 张桌子的价格为 y 元。

根据题意，有以下方程：

3y + 4x = 220
4y + 5x = 280

解这两个方程，可以得到：

x = 40
y = 30

因此，1 把椅子的价格为 40 元，1 张桌子的价格为 30 元。

综合来说，这次谷歌的多模态模型还是带来了不少惊喜，至于如何在实际过程中发挥出它的能力，还是期待明年年初的Gemini Ultra 加入到Bard再看吧。

精彩的2023！！果然是群模乱舞的一年！！

Link

#ai/google/gemini

生成式AI的崛起14：谷歌年底力挽狂澜

Link

Recent Update

Trending Tags

Contents

Trending Tags

生成式AI的崛起14：谷歌年底力挽狂澜

Link

Recent Update

Trending Tags

Contents

Further Reading

生成式AI的崛起11：ChatGPT, Bard, New Bing 是骡子是马，拉出来溜溜

生成式AI的崛起27：和AI一起按规范写代码 —— 试用 Spec Kit 的流水线式开发体验

RealChar.ai: A Realtime AI Character Chatbot with Real Voice

Trending Tags