Posts 生成式AI的崛起14:谷歌年底力挽狂澜
Post
Cancel

生成式AI的崛起14:谷歌年底力挽狂澜

Google Bard

by Mojahid Mottakin from Unsplash

眼看着整个2023年的风光都被ChatGPT全部抢完的时候,谷歌在最后一个月进行了一次绝地反击,拿出了在各项数据上全面超越GPT4 的至尊模型 Gemini Ultra

当地时间12月6日,谷歌CEO桑达尔・皮查伊官宣 Gemini 1.0 版正式上线。

这次发布的 Gemini 大模型是原生多模态大模型,是谷歌大模型新时代的第一步, 所谓的原生,并不像之前的GPT先从文本开始训练,在后面推广到其他模态,而是从一开始就是文本、视频、音频同时训练并在过程中建立联系。这就让多模态从一开始就更加自然的形成,从而达到更加优质的交互形式和表现。

这次Gemini发布了三个不同的量级:

  • 能力最强的 Gemini Ultra,也就是谷歌用来演示的模型(事后有爆说视频存在剪辑,交互能力被扩大…)
  • 适用于多任务的 Gemini Pro
  • 适用于特定任务和端侧的 Gemini Nano

与此同时,面向用户免费开放的Bard,已经装备了 Gemini Pro。今天打开bard.google.com, 发现输入框左侧已经出现了提供了上传图片的按钮。在谷歌的宣传中,Bard用户还将会在明年年初用上Gemini Ultra版本。

回来说说宣传视频中的Gemini Ultra的表现吧,首先就是多模态的能力非常出彩,演示人员一边画,Gemini就能实时的给出准确的表述,甚至包括物品的材质判断都非常准确。另外更加惊艳的是它的推理能力,包括猜纸团,对着世界地图问答这两个交互游戏中,Gemini都给出了非常好的表现。

按照谷歌释放的信息,谷歌对 Gemini 模型进行了严格的测试,并评估了它们在各种任务中的表现。从自然图像、音频和视频理解,到数学推理等任务,Gemini Ultra 在大型==语言模型==研发被广泛使用的 32 个学术==基准==测试集中,在其中 30 个测试集的性能超过当前 SOTA 结果。

另外,Gemini Ultra 在 MMLU(大规模多任务语言理解数据集)中的得分率高达 90.0%,首次超越了人类专家。MMLU 数据集包含数学、物理、历史、法律、医学和伦理等 57 个科目,用于测试大模型的知识储备和解决问题能力。

经过训练,Gemini 1.0 可以同时识别和理解文本、图像、音频等,因此它能够更全面地理解输入中信息的细节,也能回答与复杂主题相关的问题。因此,它特别擅长对数学和物理等复杂学科的问题进行推理。

比如一位老师画了一个滑雪者从斜坡上下来的物理问题,一位学生则提出了一个解决方案来计算滑雪者在斜坡底部的速度。利用Gemini的多模态推理能力,该模型能够读懂凌乱的笔迹,正确理解问题的表述,将问题和解决方案都转换为数学公式,识别出学生在解决问题时出错的具体推理步骤,然后给出问题的正确解决方案。

除此之外,Gemini 还可以用作更高级编码系统的引擎。两年前,谷歌推出了 AlphaCode,这是第一个在编程竞赛中达到竞争性水平的==人工智能==代码生成系统。

使用 Gemini 的专门版本,谷歌创建了更先进的代码生成系统 AlphaCode 2,它擅长解决超出编码范围、涉及复杂数学和理论计算机科学的竞争性编程问题。

面对OpenAI与微软的强力同盟,谷歌充分利用了自己的长产品线优势,可以预料到谷歌将会在后续的产品发布中,陆续会将这一强大模型推广到旗下的所有服务和产品。

中午按捺不住激动的心情,去Bard尝试了一把装备了Gemini Pro的新Bard,体验非常不错。作为米兰球迷,我拿了一张AC米兰夺得19冠的一张海报给它,结果它不仅给出了非常完整的说明,而且还进行了推理并结合我所在的地理位置给出了合理的猜测,给人非常大的惊喜。

这张图是一张海报,上面写着“我们是冠军”,下方是 AC Milan 的队徽和 19 个奖杯的列表。海报的背景是红黑相间的条纹,代表 AC Milan 的队服颜色。

这张图的主题是 AC Milan 在 2021-2022 赛季获得意大利足球甲级联赛冠军。海报上的文字和奖杯列表都表明了 AC Milan 取得了这一成就。

海报的作者是 Marinella Marinelli,她是 Airlite® 公司的特种项目负责人。Marinelli 是 AC Milan 的忠实粉丝,她创作这张海报是为了庆祝 AC Milan 的胜利。

具体来说,这张图可以从以下几个角度来解读:

从足球的角度来看,这张图是 AC Milan 球迷的狂欢。海报上的文字和奖杯列表都表达了球迷的喜悦和自豪

从商业的角度来看,这张图是 Airlite® 公司的营销活动。海报上印有 Airlite® 的标志,这表明 Airlite® 与 AC Milan 建立了合作关系。

从社会文化的角度来看,这张图可以被视为一种社会现象。AC Milan 是意大利最受欢迎的足球俱乐部之一,其胜利具有广泛的社会影响。

根据您提供的信息,您目前在xx。因此,这张图也可以被视为xx AC Milan 球迷的狂欢。

我也拿了视频中的石头、剪子、布的图片给它,但这一轮Bard没能识别出来。

不过我也试了一把它的数学计算,结果却不怎么让人满意。我拿了一道小学应用题,希望Bard能给出类似的题目,结果题目是出来了,但计算却错的离谱。仔细查看发现它的方程式是列对了,但是计算错了。看来Gemini Pro跟Ultra能力上还是相差很大。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
**题目:**

小明买了 3 张桌子和 4 把椅子,共花了 220 元。小红买了 4 张桌子和 5 把椅子,共花了 280 元。1 把椅子多少元?1 张桌子多少元?

**解答:**

设 1 把椅子的价格为 x 元,1 张桌子的价格为 y 元。

根据题意,有以下方程:


3y + 4x = 220
4y + 5x = 280


解这两个方程,可以得到:


x = 40
y = 30


因此,1 把椅子的价格为 40 元,1 张桌子的价格为 30 元。

综合来说,这次谷歌的多模态模型还是带来了不少惊喜,至于如何在实际过程中发挥出它的能力,还是期待明年年初的Gemini Ultra 加入到Bard再看吧。

精彩的2023!! 果然是群模乱舞的一年!!

#ai/google/gemini

This post is licensed under CC BY 4.0 by the author.

Recent Update

    Trending Tags

    Contents

    Trending Tags