谷歌终于发布 Gemini：原生多模态，支持端侧部署，测试结果超 GPT-4

智源社区1年前 (2023)发布智源社区

392 0 0

当地时间 12 月 6 日，谷歌 CEO Sundar Pichai 官宣谷歌的大语言模型 Gemini 1.0 版本，在 11 月份被媒体报道 Gemini 推迟发布后，此次的 Gemini 发布略显仓促，原计划中的线下活动也被取消，变成了线上活动。

Google 最早在今年五月的 IO 大会期间透露了 Gemini 的存在，但与之前外界预期的不同，Google 声称 Gemini 的发布并未因为任何内部原因而延期，表示其 AI 模型的研发进程从 2012 年已经开始，直到最近 2023 年发布 PaLM2 与 Bard 之后，就开始为 Gemini 的正式发布做准备。

01 三种尺寸版本，提供端侧可部署的 Gemini Nano

本次发布的 Gemini 分为三种不同的尺寸，适应不同任务的需求：

Gemini Ultra：规模最大且功能最强大的模型，适用于高度复杂的任务。

Gemini Pro：适用于各种任务的最佳模型，也是当前 Google Bard 使用的模型版本

Gemini Nano：适用于特定任务和端侧的，可以在使用特殊芯片的终端设备上运行。

谷歌终于发布 Gemini：原生多模态，支持端侧部署，测试结果超 GPT-4

在被大型语言模型（LLM）研究和开发中广泛使用的 32 项学术基准中，Gemini Ultra 的性能有 30 项都超过了目前最先进的水平。Gemini Ultra 的得分率为 90.0%，是第一个在 MMLU（大规模多任务语言理解）测试中超过人类专家的模型，MMLU 综合使用了数学、物理、历史、法律、医学和伦理等 57 个科目，用于测试世界知识和解决问题的能力。

谷歌终于发布 Gemini：原生多模态，支持端侧部署，测试结果超 GPT-4

谷歌表示，Gemini Ultra 在广泛使用的基准测试中优于 GPT-4，这些基准测试了阅读理解、代码生成和视觉理解等能力。众所周知，比较和评测语言模型是一项艰巨的任务，由于基准测试是公开的，谷歌可以使用它们来训练模型。

Gemini 1.0 具有复杂多模态推理能力，可以帮助理解复杂的书面和视觉信息。这使得它尤其擅长发现海量数据中难以辨别的知识。Gemini 1.0 通过阅读、过滤和理解信息具有了从数十万份文件中提取 insights 的超凡能力，这有助于科学、金融等诸多领域以超快的速度取得新突破。

谷歌终于发布 Gemini：原生多模态，支持端侧部署，测试结果超 GPT-4

Gemini Ultra 将于明年推出。从 12 月 13 日开始，开发者和企业客户将能够通过 Google Generative AI Studio 或 Google Cloud 中的 Vertex AI 访问 Gemini Pro。

目前已经在 Bard 上部署的 Gemini Pro，谷歌声称它在八个行业标准基准中的六个中击败了 GPT-3.5。目前 Bard 在 170 多个国家和地区提供英语服务，谷歌计划在未来几个月内扩展不同的模态，并且支持新的语言和地区。

明年，谷歌计划推出由 Gemini Ultra 提供支持的「Bard Advanced」预览版，这是谷歌新的大型语言模型中最强大和最强大的版本。

Pixel 8 Pro 是首款搭载 Gemini Nano 的智能手机，它可以支持录音应用中的「总结」等新功能，并在 Gboard 中推出「智能回复」功能，从 WhatsApp 开始，明年还将推出更多信息应用。

Gemini Nano 除了登陆 Pixel 8 Pro 手机上之外，从即日起也将开放给所有 Android 14 开发者，开发者可以以 AICore 的形式，在手机系统中调用 Gemini 的能力，用在自己的 App 中尝试 AI 功能。

谷歌终于发布 Gemini：原生多模态，支持端侧部署，测试结果超 GPT-4

未来几个月，Gemini 将应用于谷歌更多的产品和服务，如 Search、Ads、Chrome 和 Duet AI。

02 原生多模态，暂时只支持英语对话

Gemini 最大亮点之一就是原生多模态大模型——设计时原生支持多模态，具有处理不同形式数据（语言+听力+视觉）的能力；一开始就在不同模态上进行预训练，利用额外的多模态数据进行微调以提升有效性。

谷歌没有像 OpenAI 创建 DALL-E 和 Whisper 那样训练图像和语音的单独模型，它从一开始就建立了一个多模态模型。

谷歌表示：Gemini 1.0 经过训练，可以同时识别并理解文本、图像、音频等，因此它能更好地理解具有细微差别的信息，回答与复杂主题相关的问题。这就让它尤其擅长解释数学和物理等复杂科目中的推理。第一代 Gemini 可以理解、解释和生成世界上最流行的编程语言（如 Python、Java、C++ 和 Go）的高质量代码。它能够跨语言工作并对复杂信息进行推理，这些能力使其成为世界领先的编码基础模型之一。

目前，Gemini 最基本的模型仅支持文本输入和文本输出，但 Gemini Ultra 可以处理图像、视频和音频，谷歌计划在之后增加输出图片的能力。