admin管理员组文章数量:1037775
超越DeepSeekV3,Gemma 3技术报告
摘要
我们推出了Gemma家族的轻量级开源模型新成员——Gemma 3,这是一个多模态模型,参数规模从10亿到270亿不等。此版本引入了视觉理解能力,语言覆盖范围更广,且上下文更长——至少包含个标记。我们还更改了模型架构,以减少在长上下文情况下容易爆炸的KV缓存内存。这是通过增加局部注意力层与全局注意力层的比例,并保持局部注意力的跨度较短来实现的。Gemma 3模型采用知识蒸馏进行训练,在预训练和指令微调版本上均较Gemma 2表现出色。特别是,我们全新的后训练方法显著提升了数学、聊天、指令遵循和多语言能力,使得Gemma3-4B-IT与Gemma2-27B-IT具有竞争力,而Gemma3-27B-IT在与Gemini-1.5-Pro的各项基准测试中表现相当。我们将所有模型向社区开放。.pdf
1. 引言
我们推出了Gemma开源语言模型(Gemma Team, 2024a)的最新版本,该版本与Gemini前沿模型系列(Gemini Team, 2023)共同设计。此新版本在规模上与Gemma 2(Gemma Team, 2024b)相当,并增加了1B模型。这些模型旨在在标准消费级硬件(如手机、笔记本电脑和高端GPU)上运行。此版本为Gemma系列带来了几项新能力:多模态、长上下文和多语言,同时保持或超越了先前版本的性能。
在多模态方面,大多数Gemma 3模型与SigLIP视觉编码器的定制版本兼容(Zhai等,2023)。语言模型将图像视为由SigLIP编码的一系列软标记。我们通过将视觉嵌入压缩为256个固定大小的向量来降低图像处理的推理成本。编码器以固定分辨率工作,我们借鉴了LLaVA(Liu等,2024)的灵感,采用平移和扫描(P&S)方法实现灵活分辨率。
第二项主要的架构改进是将上下文大小增加到个标记,同时不降低性能。长上下文的一个挑战是在推理过程中KV缓存的内存爆炸。为减少此问题,我们在每个全局层之间交错多个局部层,并将较小的跨度(仅1024个标记)分配给局部层。因此,只有全局层关注长上下文,并且每5个局部层有1个全局层。
预训练优化方案与Gemma 2相似,在架构设计方面做了一些修改。我们使用与Gemini 2.0相同的分词器,并重新设计了数据混合方案,以提高模型的多语言能力,同时引入图像理解。所有Gemma 3模型均采用知识蒸馏(Hinton等,2015)进行训练。
在后训练阶段,我们专注于提升数学、推理和聊天能力,以及整合Gemma 3的新功能,即长上下文和图像输入。我们采用了一种新颖的后训练方法,在所有能力方面(包括数学、编码、聊天、指令遵循和多语言)均带来提升。由此产生的Gemma 3指令微调模型既强大又多功能,远超其前代。
在以下部分中,我们简要概述了我们的模型,包括架构以及预训练和后训练方案。我们还提供了在各种定量和定性基准测试上的详细评估。我们讨论了安全、负责任部署的方法,并概述了Gemma 3的更广泛影响、局限性和优势。
2. 模型架构
Gemma 3模型遵循与先前版本(Vaswani等,2017)相同的仅解码器Transformer架构,其大多数架构元素与前两个Gemma版本相似。我们使用带后归一化和RMSNorm(Zhang和Sennrich,2019)的前归一化的分组查询注意力(Grouped-Query Attention,GQA)(Ainslie等,2023)。受Dehghani等(2023)、Wortsman等(2023)和Chameleon团队(2024)的启发,我们用QK-norm替换了Gemma 2的软封顶。在本节中,我们重点关注与以下先前版本的一些关键差异:
5:1的局部/全局层交错。我们在局部滑动窗口自注意力(Beltagy等,2020)和全局自注意力(Luong等,2015)之间交替,全局层每5个局部层出现一次,模型的第一层为局部层。
长上下文。Gemma 3模型支持128K标记的上下文长度,1B模型除外,其上下文长度为32K。我们在全局自注意力层上将RoPE基础频率从10k增加到1M,并保持局部层的频率为10k。我们遵循Chen等(2023)的位置插值类似过程来扩展全局自注意力层的跨度。
2.1. 视觉模态
视觉编码器。我们使用SigLIP编码器(Zhai等,2023)的400M变体,这是一种使用CLIP损失(Radford等,2021)变体的Vision Transformer(Dosovitskiy,2020)。Gemma视觉编码器将调整为大小的方形图像作为输入,并在视觉辅助任务的数据上进行微调。为了简化,我们在4B、12B和27B模型中共享视觉编码器,并在训练过程中保持其冻结。
()。Gemma视觉编码器以固定的分辨率运行。这会在处理非方形纵横比和高分辨率图像时产生伪影,导致文本无法阅读或小型物体消失。我们在推理过程中使用自适应窗口算法来解决此问题。该算法将图像分割成覆盖整个图像且大小相同的非重叠裁剪块,并将它们调整为像素,然后传递给编码器。此窗口化仅在必要时应用,并控制最大裁剪块数量。这是一种仅推理时的优化,可以禁用以实现更快的推理。
2.2. 预训练
我们遵循与Gemma 2类似的知识蒸馏预训练方案。
训练数据。与Gemma 2相比,我们在略大的标记预算上预训练我们的模型,即,对于Gemma 3 27B,我们训练了14T标记;对于12B版本,训练了12T标记;对于4B版本,训练了4T标记;对于1B版本,训练了2T标记。标记数量的增加反映了预训练期间使用的图像和文本的混合。我们还增加了多语言数据的数量以提高语言覆盖率。我们添加了单语和并行数据,并使用受Chung等(2023)启发的策略来处理语言表示的不平衡。
分词器。我们使用与Gemini 2.0相同的分词器:带有拆分数字、保留空白字符和字节级编码的SentencePiece分词器(Kudo和Richardson,2018)。所得词汇表有262k个条目。该分词器对非英语语言更为平衡。
过滤。我们使用过滤技术来降低不良或不安全表述的风险,并删除某些个人信息和其他敏感数据。我们从预训练数据混合中清除评估集,并通过最小化敏感输出的传播来降低复述风险。我们还应用了受Sachdeva等(2024)启发的质量重新加权步骤,以减少低质量数据的出现。
蒸馏。我们根据教师概率对每个标记采样256个逻辑值。学生通过交叉熵损失在这些样本中学习教师的分布。对于非采样逻辑值,将教师的目标分布设置为零概率,并进行重新归一化。
2.3. 量化感知训练
除了原始检查点外,我们还提供了不同标准格式的模型的量化版本。这些版本是通过使用量化感知训练(Quantization Aware Training,QAT)(Jacob等,2018)对每个模型进行少量步骤(通常为5000步)的微调获得的。我们使用非量化检查点中的概率作为目标,并调整数据以匹配预训练和训练后分布。基于最受欢迎的开源量化推理引擎(例如llama.cpp),我们关注三种权重表示:每通道int4、每块int4和切换fp8。在表3中,我们报告了序列为32k标记时,原始模型和量化模型(带或不带KV缓存)的每种权重表示所占用的内存。
2.4. 计算基础设施
我们使用TPUv4、TPUv5e和TPUv5p训练模型,如表2所示。每个模型配置都经过优化,以最大限度地减少训练步骤时间。对于视觉编码器,我们预先计算每个图像的嵌入,并直接使用嵌入进行训练,不给语言模型的训练增加成本。我们使用ZeRO-3(Ren等,2021)的一种实现来分片优化器状态。对于多吊舱训练,我们使用Barham等(2022)的Pathways方法,在数据中心网络上执行数据副本减少。我们使用Jax(Roberts等,2023)和Pathways(Barham等,2022)的“单控制器”编程范式,以及GSPMD分区器(Xu等,2021)和MegaScale XLA编译器(XLA,2019)。
3. 指令调优
与之前的方案(见表6)相比,我们使用改进的后训练方法将预训练模型转换为指令调优模型。
技术。我们的后训练方法依赖于来自大型IT教师的知识蒸馏(Agarwal等,2024;Anil等,2018;Hinton等,2015)的改进版本,以及基于BOND(Sessa等,2024)、WARM(Ramé等,2024b)和WARP(Ramé等,2024a)改进版本的RL微调阶段。
强化学习目标。我们使用各种奖励函数来提高有用性、数学、编码、推理、遵循指令和多语言能力,同时最大限度地降低模型的危害性。这包括从使用人类反馈数据训练的加权平均奖励模型(Ramé等,2024b)、代码执行反馈(Gehring等,2024)和解决数学问题的真实奖励(DeepSeek-AI,2025;Lambert等,2024)中学习。
数据过滤。我们仔细优化后训练中使用的数据,以最大限度地提高模型性能。我们过滤掉显示某些个人信息、不安全或有毒模型输出、错误自我识别数据和重复示例的示例。包括鼓励更好的上下文归因、对冲和拒绝以最小化幻觉的数据子集,也提高了事实性指标的性能,而不会降低模型在其他指标上的性能。
[BOS]标记。对于PT和IT模型,文本以[BOS]标记开头,由于文本“ [B O S] ”不映射到[BOS]标记,因此需要显式添加。例如,Flax有一个选项add_bos=True,可在标记化时自动添加此标记。IT模型格式化的一个示例如表4所示。
PT与IT格式化。所有模型共享相同的分词器,其中一些控制标记专门用于IT格式化。一个关键区别是,PT模型在生成的末尾输出一个标记,而IT模型在生成的末尾输出一个<end_of_turn>标记,如表4中IT所示。因此,对任何模型类型进行微调还需要添加其各自的结束标记。
4. 最终模型评估
在本节中,我们通过一系列自动化基准测试和跨多个领域的人类评估,以及MMLU等静态基准测试,对IT模型进行评估。
4.1. LMSYS Chatbot Arena
在本节中,我们报告了我们的IT 27B模型在LMSYS Chatbot Arena(Chiang等,2024)上通过人类评分员与其他最先进模型进行的盲测对比表现。我们在表5中报告了Elo分数。Gemma 3 27B IT(1338)是前10名最佳模型之一,其分数高于其他非思考型开放模型,如DeepSeek-V3(1318)、LLaMA 3 405B(1257)和Qwen2.5-70B(1257),而这些模型的规模要大得多。最后,Gemma 3的Elo分数(1338)显著高于Gemma 2(1220)。请注意,Elo分数未考虑视觉能力,而上述模型均不具备此能力。
4.2. 标准基准测试
在表6中,我们展示了我们的最终模型在各种基准测试上的性能,并与我们的先前模型迭代和Gemini 1.5进行了比较。由于在我们的设置下运行通常会报告自己评估设置的外部模型无法保证公平比较,因此我们未直接与这些外部模型进行比较。我们鼓励读者关注第三方静态排行榜,以更公平地比较各模型。我们在附录中包含了我们的模型在其他基准测试上的其他评估结果。
5. 消融实验
在这里插入图片描述
在本节中,我们重点关注架构变化的影响以及一些该模型新具备的视觉能力。
5.1. 预训练能力探测
在预训练期间,我们使用几个标准基准作为探测工具,以确保我们的模型能够捕捉到通用能力。在图2中,我们比较了来自Gemma 2和Gemma 3的预训练模型在这些通用能力(即科学、代码、事实性、多语言性、推理和视觉)方面的质量。这些图中使用的不同公共基准的性能细节见附录。总体而言,尽管增加了视觉能力,但我们发现新版本在大多数类别中都有所改进。我们特别关注此版本中的多语言性,这直接影响我们模型的质量。然而,尽管使用了去污技术,但这些探测工具仍存在被污染的风险(Mirzadeh等,2024),这使得得出更明确的结论变得更加困难。
5.2. 局部:全局注意力层
我们测量了局部和全局自注意力层的变化对推理期间的性能和内存消耗的影响。 局部:全局比例。在图3中,我们比较了局部与全局注意力层的不同比例。Gemma 2模型中使用1:1的比例,而Gemma 3中使用5:1的比例。我们发现,改变这一比例对困惑度的影响很小。
滑动窗口大小。在图4中,我们比较了在不同全局:局部比例配置下,局部注意力层的不同滑动窗口大小。可以在不影响困惑度的情况下显著减小滑动窗口。
对键值(KV)缓存内存的影响。在图5中,我们展示了在32k标记的上下文中推理期间,模型使用的内存与KV缓存之间的平衡。“仅全局”配置是大多数密集模型使用的标准配置。Gemma 2中使用“1:1,sw=4096”。我们发现,“仅全局”配置导致60%的内存开销,而使用1:3和1024的滑动窗口(“sw=1024”)时,这一开销降低到15%以下。在图6中,我们计算了使用我们的2B架构(L:G=5:1,sw=1024)与“仅全局”2B模型时,KV缓存使用的内存随上下文长度的变化。
5.3. 启用长上下文
我们不是从头开始使用128K序列进行训练,而是先用32K序列对模型进行预训练,然后在预训练结束时将4B、12B和27B模型扩展到128K标记,同时重新缩放RoPE(Chen等,2023)。我们发现,在实践中,缩放因子为8效果较好。请注意,与Gemma 2相比,我们还将全局自注意力层的RoPE基频从10k增加到1M,而局部自注意力层仍保持10k。在图7中,我们展示了不同上下文长度对困惑度的影响。我们的模型可以泛化到128K,但随着我们继续扩展,性能会迅速下降。
5.4. 小教师与大教师
一个常见的发现是,为了训练一个小模型,最好从一个更小的教师模型中进行蒸馏。我们怀疑这是因为这些研究通常是在使用较差的教师模型的正则化效果超过使用更好的教师模型的收益的情境下进行的。我们使用两位大小不同的教师(一位大和一位小)对不同训练阶段的学生进行训练。在图8中,我们观察到,在短期训练阶段,较小的教师效果更好,但在长期训练中,这一趋势发生了逆转。
5.5. 视觉编码器
图像分辨率的影响。我们使用基于SigLIP(Zhai等,2023)的视觉编码器。视觉编码器是冻结的,只有语言模型被训练。此多模态数据中的每张图像都由相应视觉编码器的256个图像标记表示。因此,更高分辨率的编码器使用平均池化来将其输出减少到256个标记。例如,896分辨率的编码器对其输出进行4x4平均池化。如表7所示,高分辨率编码器的性能优于低分辨率编码器。
Pan & Scan(P&S)。P&S能够在接近图像原始纵横比和分辨率的情况下捕获图像。在表8中,我们比较了启用和未启用P&S的27B IT模型。正如预期的那样,以接近原始分辨率处理图像的能力对于需要某种形式读取图像上文本的任务非常有帮助,这对于视觉语言模型尤为重要。
6. 记忆与隐私
大型语言模型可能会产生训练中使用的一些文本的近似副本(Biderman等,2023;Carlini等,2021,2022;Ippolito等,2022;Nasr等,2023)。几份先前的报告发布了审计报告,通过测量记忆率(Anil等,2023;Chowdhery等,2022;Gemini团队,2023,2024;Gemma团队,2024a,b;LLaMa团队,2024)来量化这一风险。此“记忆率”{ }^{1}定义为:与所有模型生成相比,模型生成中与训练数据匹配的生成所占的比例,具体设置如下。我们遵循Gemma团队(2024b)描述的方法来测量它。具体而言,我们从不同语料库中均匀分布地抽取大量训练数据样本,并使用长度为50的前缀和长度为50的后缀测试这些内容的可发现提取(Nasr等,2023)。如果续集中的所有标记都与源后缀匹配,则我们将文本视为“完全记忆”;如果它们的编辑距离不超过10%,则视为“近似记忆”。图9比较了Gemma和Gemini模型的记忆率;这些模型按时间倒序排列,最新的Gemma 3模型在左侧。我们发现,与先前模型相比,Gemma 3模型以低得多的速率记忆长文本(注意y轴为对数刻度)。我们观察到,4B、12B和27B模型的记忆率差异很小,而1B模型的记忆量少于这些更大的模型。此外,我们发现,与完全记忆相比,近似记忆所占的比例相对增加,平均增加约24倍。
我们还研究了生成内容中可能包含个人信息的速率。为了识别可能的个人信息,我们使用谷歌云的敏感数据保护(SDP)服务。{ }^{2} SDP使用广泛的检测规则来识别可能包含个人信息的文本。SDP旨在具有高召回率,并且不考虑信息出现的上下文,这会导致许多误报。因此,我们可能高估了被分类为记忆的输出中包含的潜在个人信息的真实数量。SDP还提供广泛的严重程度级别:低、中和高。如果SDP在任何严重程度级别上将文本分类为个人信息,我们就将其分类为个人信息。在所有Gemma 3模型的记忆特征输出中,我们未观察到个人信息。这表明,在分类为记忆的输出中,个人数据的比率低于我们的检测阈值。
7. 责任、安全性和保密性
在开发Gemma模型时,责任、安全性和保密性至关重要。为了降低对Gemma 3用户的风险,我们继续整合增强的内部安全流程,这些流程涵盖整个开发工作流程,与最近的谷歌AI模型(Gemini团队,2024)保持一致。这侧重于训练时的安全缓解措施,以及我们引入的新图像到文本功能所需的稳健且透明的模型评估。
7.1. 治理与评估
我们对Gemma的效益和风险进行评估的方法反映了为Gemma 1概述的方法(Gemma团队,2024a),同时考虑了所支持模态的变化。我们仍然认为,人工智能的开放性可以使这些技术惠及整个社会,但必须与恶意使用可能给个人和机构层面造成伤害的风险进行权衡(Weidinger等,2021)。自首届Gemma发布以来,我们看到这些模型推动了许多对社会有益的应用,例如我们自己的ShieldGemma 2,这是一个使用Gemma 3构建的4B图像安全分类器,它为图像安全提供了现成的解决方案,针对危险内容、色情内容和暴力类别输出安全标签。 发布Gemma 3模型需要特别注意模型能力的变化,并密切监控现有多模态大型语言模型(LLM)不断演变的风险(Lin等,2024),以及了解模型在实际情况中的使用方式。尽管我们尚未收到有关Gemma恶意使用的任何报告,但我们仍致力于调查任何此类报告,并与学术界和开发人员社区合作,同时我们自己进行监测,以标记此类情况。 尽管能力有所提高,但我们认为,鉴于有更多的大型强大开源模型可用,此次发布对整体风险格局的影响将微乎其微。
7.2. 安全政策和训练时间缓解措施
Gemma安全方法的一个关键支柱是让微调模型与谷歌的安全政策保持一致,与Gemini模型(Gemini团队,2023)保持一致。这些政策旨在帮助防止我们的模型生成有害内容,即:
- 儿童性虐待和利用
- 泄露可能导致伤害的个人身份信息(例如,社会保险号)
- 仇恨言论和骚扰
- 危险或恶意内容(包括宣扬自残或指导有害活动)
- 色情内容
- 与科学或医学共识相悖的医疗建议 我们对预训练数据进行了大量的安全过滤,以降低我们的预训练和微调检查点生成有害内容的可能性。对于微调模型,我们还同时使用标准微调(SFT)和基于人类反馈的强化学习(RLHF)来引导模型远离不良行为。
7.3. 保障性评估
我们还通过一系列基准保障性评估来运行我们的信息技术(IT)模型,以了解我们的模型可能造成的潜在危害。由于我们倡导开放模型,我们也认识到权重发布的不可逆性需要进行严格的风险评估。因此,我们设计了相应的内部安全流程,并且对于之前的Gemma模型,我们还进行了与极端风险相关的能力评估(Phuong等人,2024;Shevlane等人,2023)。随着我们继续开发和共享开放模型,我们将遵循一种启发式方法,即彻底评估一个能力更强的模型通常可以为能力较弱的模型提供足够的保障。因此,我们为Gemma 3优先进行了一组简化的评估,仅针对特定模型可能带来潜在更高风险的情况(如下文关于化学、生物、放射和核能(CBRN)评估部分所述)保留深入的危险能力评估。我们在开发速度与针对性安全测试之间取得平衡,确保我们的评估重点突出且高效,同时坚持我们在前沿安全框架中提出的承诺。
基准评估 基准保障性评估通过使用大量合成对抗性用户查询和人工评估员来标记答案是否违反政策,从而捕获模型对安全政策的违反率。总体而言,Gemma 3在这些安全政策上的违反率整体显著降低。
化学、生物、放射和核能(CBRN)知识 由于模型在科学、技术、工程和数学(STEM)相关任务上的性能有所提升,我们使用一个包含封闭式、基于知识的多项选择题的内部数据集评估了与生物、放射和核能风险相关的知识。对于化学知识的评估,我们采用了Macknight等人开发的基于知识的封闭式化学危害评估方法。我们的评估表明,Gemma 3模型在这些领域的知识水平较低。
7.4. 我们对负责任的开放模型的方法
设计安全、可靠和负责任的应用程序需要采用系统级方法,努力减轻与每个特定用例和环境相关的风险。我们将继续采用与模型潜在风险相称的评估和安全缓解措施,并且只有在确信益处远大于可预见风险的情况下,才会与社区共享这些措施。
8. 讨论与结论
在本文中,我们介绍了Gemma 3,这是Gemma系列开放语言模型中最新推出的文本、图像和代码模型。在此版本中,我们重点增加了图像理解和长上下文理解功能,同时提高了多语言能力和STEM相关能力。我们的模型尺寸和架构旨在与标准硬件兼容,并且我们的大多数架构改进都是为了适应这种硬件,同时保持性能。
附录
预训练性能详情
事实性和常识性。在表9中,我们报告了我们的新型预训练基准测试与之前版本的性能对比。我们考虑了几个标准基准测试,即HellaSwag(Zellers等人,2019)、BoolQ(Clark等人,2019)、PIQA(Bisk等人,2019)、SIQA(Sap等人,2019)、TriviaQA(Joshi等人,2017)、Natural Questions(Kwiatkowski等人,2019)、ARC-C和ARC-E(Chollet,2019)、WinoGrande(Sakaguchi等人,2019)、BBH(Suzgun等人,2022)、DROP(Dua等人,2019)。评估详情见表19。总体而言,我们的模型与Gemma 2处于同一水平,这是令人鼓舞的,因为这些能力并不是本版本改进的重点。
STEM和代码。我们在表10中列出了在STEM和代码方面的性能详情。我们考虑了几个标准基准测试,即MMLU(Hendrycks等人,2020)、MMLU-Pro(Wang等人,2024)、AGIEval(Zhong等人,2023)、MATH(Hendrycks等人,2021)、GSM8K(Cobbe等人,2021)、GPQA(Rein等人,2023)、MBPP(Austin等人,2021)、HumanEval(Chen等人,2021)。评估详情见表19。总体而言,我们的预训练模型在STEM能力方面呈现出一致的提升。在代码方面,4B和12B模型也表现出类似的改进,但27B模型则没有。
图像理解。在表11中,我们报告了使用视觉编码器训练的不同模型在各种视觉问答基准测试中的性能,包括COCO Caption(Chen等人,2015)、DocVQA(Mathew等人,2020)、InfographicVQA(Mathew等人,2022)、MMMU(Yue等人,2023)、TextVQA(Singh等人,2019)、RealWorldQA(Rea)、ReMI(Kazemi等人,2024a)、AI2D(Kembhavi等人,2016)、ChartQA(Masry等人,2022)、VQA v2(Goyal等人,2017)、BLINK(Fu等人,2024)、OK-VQA(Marino等人,2019)、TallyQA(Acharya等人,2018)、SpatialSense VQA(Yang等人,2019)、CountBench VQA(Paiss等人,2023)。评估详情见表20。
与PaliGemma 2的比较。我们根据Steiner等人(2024)的协议对多模态Gemma 3预训练检查点进行了微调,仅调整了学习率,其他迁移设置保持不变。表12中的结果显示,Gemma 3在涉及文档理解的基准测试中表现出色,甚至超过了更大的PaliGemma 2变体。请注意,由于视觉编码器中的平均池化,与相同896 x 896分辨率下的PaliGemma 2 9B和27B模型相比,Gemma 3 4B和12B模型的迁移成本要低约10倍。Gemma 3在AI2D和OKVQA上的表现也更好,但PaliGemma 2在VQAv2和COCO caption上的表现略胜一筹。
多语言能力。在表13中,我们报告了预训练模型在多语言任务上的性能。我们采用了多镜头提示的上下文内学习方法,并在以下基准测试上展示了结果:MGSM(Shi等人,2023)、Global-MMLU-Lite(Singh等人,2024b)、WMT24++(Deutsch等人,2025)、FLoRes(Goyal等人,2022)、XQuAD(Artetxe等人,2020)、ECLeKTic(Goldman等人,2025)、IndicGenBench(Singh等人,2024a)、XOR QA(Asai等人,2020)。评估详情见表19。
长上下文。在表15中,我们报告了预训练和微调模型在长上下文基准测试上的性能。我们包括了在32K和128K序列长度下评估的RULER(Hsieh等人,2024)和MRCR(Vodrahalli等人,2024)基准测试。
8.1. IT模型的性能
我们在表18中报告了我们的IT模型的额外基准测试。请注意,N2C指的是Natural2Code,即Gemini 1.0的内部保留数据集,它使用作者生成的源而不是基于网络的信息。BBEH指的是BIG-Bench Extra Hard(Kazemi等人,2025),这是一个具有挑战性的大型语言模型(LLM)推理基准测试,它整合了多个推理任务(Fatemi等人,2024;Hessel等人,2022;Kazemi等人,2023,2024b;Kıcıman等人,2023;Nie等人,2024;Sánchez等人,2024;Shah等人,2024;Tyen等人,2023;White等人,2024;Yamada等人,2023;Zhang等人,2024)。ECLeKTic指的是Goldman等人(2025)的研究。我们报告了微平均分数。更多评估详情见表21。
8.2. IT模型在视频理解方面的性能
附加多模态评估。根据Gemini 1.5(Gemini团队,2024)的评估协议,我们对Gemma 3 IT模型进行了常见的视觉基准测试评估。当启用P&S时,结果如表16所示。
超越DeepSeekV3,Gemma 3技术报告
摘要
我们推出了Gemma家族的轻量级开源模型新成员——Gemma 3,这是一个多模态模型,参数规模从10亿到270亿不等。此版本引入了视觉理解能力,语言覆盖范围更广,且上下文更长——至少包含个标记。我们还更改了模型架构,以减少在长上下文情况下容易爆炸的KV缓存内存。这是通过增加局部注意力层与全局注意力层的比例,并保持局部注意力的跨度较短来实现的。Gemma 3模型采用知识蒸馏进行训练,在预训练和指令微调版本上均较Gemma 2表现出色。特别是,我们全新的后训练方法显著提升了数学、聊天、指令遵循和多语言能力,使得Gemma3-4B-IT与Gemma2-27B-IT具有竞争力,而Gemma3-27B-IT在与Gemini-1.5-Pro的各项基准测试中表现相当。我们将所有模型向社区开放。.pdf
1. 引言
我们推出了Gemma开源语言模型(Gemma Team, 2024a)的最新版本,该版本与Gemini前沿模型系列(Gemini Team, 2023)共同设计。此新版本在规模上与Gemma 2(Gemma Team, 2024b)相当,并增加了1B模型。这些模型旨在在标准消费级硬件(如手机、笔记本电脑和高端GPU)上运行。此版本为Gemma系列带来了几项新能力:多模态、长上下文和多语言,同时保持或超越了先前版本的性能。
在多模态方面,大多数Gemma 3模型与SigLIP视觉编码器的定制版本兼容(Zhai等,2023)。语言模型将图像视为由SigLIP编码的一系列软标记。我们通过将视觉嵌入压缩为256个固定大小的向量来降低图像处理的推理成本。编码器以固定分辨率工作,我们借鉴了LLaVA(Liu等,2024)的灵感,采用平移和扫描(P&S)方法实现灵活分辨率。
第二项主要的架构改进是将上下文大小增加到个标记,同时不降低性能。长上下文的一个挑战是在推理过程中KV缓存的内存爆炸。为减少此问题,我们在每个全局层之间交错多个局部层,并将较小的跨度(仅1024个标记)分配给局部层。因此,只有全局层关注长上下文,并且每5个局部层有1个全局层。
预训练优化方案与Gemma 2相似,在架构设计方面做了一些修改。我们使用与Gemini 2.0相同的分词器,并重新设计了数据混合方案,以提高模型的多语言能力,同时引入图像理解。所有Gemma 3模型均采用知识蒸馏(Hinton等,2015)进行训练。
在后训练阶段,我们专注于提升数学、推理和聊天能力,以及整合Gemma 3的新功能,即长上下文和图像输入。我们采用了一种新颖的后训练方法,在所有能力方面(包括数学、编码、聊天、指令遵循和多语言)均带来提升。由此产生的Gemma 3指令微调模型既强大又多功能,远超其前代。
在以下部分中,我们简要概述了我们的模型,包括架构以及预训练和后训练方案。我们还提供了在各种定量和定性基准测试上的详细评估。我们讨论了安全、负责任部署的方法,并概述了Gemma 3的更广泛影响、局限性和优势。
2. 模型架构
Gemma 3模型遵循与先前版本(Vaswani等,2017)相同的仅解码器Transformer架构,其大多数架构元素与前两个Gemma版本相似。我们使用带后归一化和RMSNorm(Zhang和Sennrich,2019)的前归一化的分组查询注意力(Grouped-Query Attention,GQA)(Ainslie等,2023)。受Dehghani等(2023)、Wortsman等(2023)和Chameleon团队(2024)的启发,我们用QK-norm替换了Gemma 2的软封顶。在本节中,我们重点关注与以下先前版本的一些关键差异:
5:1的局部/全局层交错。我们在局部滑动窗口自注意力(Beltagy等,2020)和全局自注意力(Luong等,2015)之间交替,全局层每5个局部层出现一次,模型的第一层为局部层。
长上下文。Gemma 3模型支持128K标记的上下文长度,1B模型除外,其上下文长度为32K。我们在全局自注意力层上将RoPE基础频率从10k增加到1M,并保持局部层的频率为10k。我们遵循Chen等(2023)的位置插值类似过程来扩展全局自注意力层的跨度。
2.1. 视觉模态
视觉编码器。我们使用SigLIP编码器(Zhai等,2023)的400M变体,这是一种使用CLIP损失(Radford等,2021)变体的Vision Transformer(Dosovitskiy,2020)。Gemma视觉编码器将调整为大小的方形图像作为输入,并在视觉辅助任务的数据上进行微调。为了简化,我们在4B、12B和27B模型中共享视觉编码器,并在训练过程中保持其冻结。
()。Gemma视觉编码器以固定的分辨率运行。这会在处理非方形纵横比和高分辨率图像时产生伪影,导致文本无法阅读或小型物体消失。我们在推理过程中使用自适应窗口算法来解决此问题。该算法将图像分割成覆盖整个图像且大小相同的非重叠裁剪块,并将它们调整为像素,然后传递给编码器。此窗口化仅在必要时应用,并控制最大裁剪块数量。这是一种仅推理时的优化,可以禁用以实现更快的推理。
2.2. 预训练
我们遵循与Gemma 2类似的知识蒸馏预训练方案。
训练数据。与Gemma 2相比,我们在略大的标记预算上预训练我们的模型,即,对于Gemma 3 27B,我们训练了14T标记;对于12B版本,训练了12T标记;对于4B版本,训练了4T标记;对于1B版本,训练了2T标记。标记数量的增加反映了预训练期间使用的图像和文本的混合。我们还增加了多语言数据的数量以提高语言覆盖率。我们添加了单语和并行数据,并使用受Chung等(2023)启发的策略来处理语言表示的不平衡。
分词器。我们使用与Gemini 2.0相同的分词器:带有拆分数字、保留空白字符和字节级编码的SentencePiece分词器(Kudo和Richardson,2018)。所得词汇表有262k个条目。该分词器对非英语语言更为平衡。
过滤。我们使用过滤技术来降低不良或不安全表述的风险,并删除某些个人信息和其他敏感数据。我们从预训练数据混合中清除评估集,并通过最小化敏感输出的传播来降低复述风险。我们还应用了受Sachdeva等(2024)启发的质量重新加权步骤,以减少低质量数据的出现。
蒸馏。我们根据教师概率对每个标记采样256个逻辑值。学生通过交叉熵损失在这些样本中学习教师的分布。对于非采样逻辑值,将教师的目标分布设置为零概率,并进行重新归一化。
2.3. 量化感知训练
除了原始检查点外,我们还提供了不同标准格式的模型的量化版本。这些版本是通过使用量化感知训练(Quantization Aware Training,QAT)(Jacob等,2018)对每个模型进行少量步骤(通常为5000步)的微调获得的。我们使用非量化检查点中的概率作为目标,并调整数据以匹配预训练和训练后分布。基于最受欢迎的开源量化推理引擎(例如llama.cpp),我们关注三种权重表示:每通道int4、每块int4和切换fp8。在表3中,我们报告了序列为32k标记时,原始模型和量化模型(带或不带KV缓存)的每种权重表示所占用的内存。
2.4. 计算基础设施
我们使用TPUv4、TPUv5e和TPUv5p训练模型,如表2所示。每个模型配置都经过优化,以最大限度地减少训练步骤时间。对于视觉编码器,我们预先计算每个图像的嵌入,并直接使用嵌入进行训练,不给语言模型的训练增加成本。我们使用ZeRO-3(Ren等,2021)的一种实现来分片优化器状态。对于多吊舱训练,我们使用Barham等(2022)的Pathways方法,在数据中心网络上执行数据副本减少。我们使用Jax(Roberts等,2023)和Pathways(Barham等,2022)的“单控制器”编程范式,以及GSPMD分区器(Xu等,2021)和MegaScale XLA编译器(XLA,2019)。
3. 指令调优
与之前的方案(见表6)相比,我们使用改进的后训练方法将预训练模型转换为指令调优模型。
技术。我们的后训练方法依赖于来自大型IT教师的知识蒸馏(Agarwal等,2024;Anil等,2018;Hinton等,2015)的改进版本,以及基于BOND(Sessa等,2024)、WARM(Ramé等,2024b)和WARP(Ramé等,2024a)改进版本的RL微调阶段。
强化学习目标。我们使用各种奖励函数来提高有用性、数学、编码、推理、遵循指令和多语言能力,同时最大限度地降低模型的危害性。这包括从使用人类反馈数据训练的加权平均奖励模型(Ramé等,2024b)、代码执行反馈(Gehring等,2024)和解决数学问题的真实奖励(DeepSeek-AI,2025;Lambert等,2024)中学习。
数据过滤。我们仔细优化后训练中使用的数据,以最大限度地提高模型性能。我们过滤掉显示某些个人信息、不安全或有毒模型输出、错误自我识别数据和重复示例的示例。包括鼓励更好的上下文归因、对冲和拒绝以最小化幻觉的数据子集,也提高了事实性指标的性能,而不会降低模型在其他指标上的性能。
[BOS]标记。对于PT和IT模型,文本以[BOS]标记开头,由于文本“ [B O S] ”不映射到[BOS]标记,因此需要显式添加。例如,Flax有一个选项add_bos=True,可在标记化时自动添加此标记。IT模型格式化的一个示例如表4所示。
PT与IT格式化。所有模型共享相同的分词器,其中一些控制标记专门用于IT格式化。一个关键区别是,PT模型在生成的末尾输出一个标记,而IT模型在生成的末尾输出一个<end_of_turn>标记,如表4中IT所示。因此,对任何模型类型进行微调还需要添加其各自的结束标记。
4. 最终模型评估
在本节中,我们通过一系列自动化基准测试和跨多个领域的人类评估,以及MMLU等静态基准测试,对IT模型进行评估。
4.1. LMSYS Chatbot Arena
在本节中,我们报告了我们的IT 27B模型在LMSYS Chatbot Arena(Chiang等,2024)上通过人类评分员与其他最先进模型进行的盲测对比表现。我们在表5中报告了Elo分数。Gemma 3 27B IT(1338)是前10名最佳模型之一,其分数高于其他非思考型开放模型,如DeepSeek-V3(1318)、LLaMA 3 405B(1257)和Qwen2.5-70B(1257),而这些模型的规模要大得多。最后,Gemma 3的Elo分数(1338)显著高于Gemma 2(1220)。请注意,Elo分数未考虑视觉能力,而上述模型均不具备此能力。
4.2. 标准基准测试
在表6中,我们展示了我们的最终模型在各种基准测试上的性能,并与我们的先前模型迭代和Gemini 1.5进行了比较。由于在我们的设置下运行通常会报告自己评估设置的外部模型无法保证公平比较,因此我们未直接与这些外部模型进行比较。我们鼓励读者关注第三方静态排行榜,以更公平地比较各模型。我们在附录中包含了我们的模型在其他基准测试上的其他评估结果。
5. 消融实验
在这里插入图片描述
在本节中,我们重点关注架构变化的影响以及一些该模型新具备的视觉能力。
5.1. 预训练能力探测
在预训练期间,我们使用几个标准基准作为探测工具,以确保我们的模型能够捕捉到通用能力。在图2中,我们比较了来自Gemma 2和Gemma 3的预训练模型在这些通用能力(即科学、代码、事实性、多语言性、推理和视觉)方面的质量。这些图中使用的不同公共基准的性能细节见附录。总体而言,尽管增加了视觉能力,但我们发现新版本在大多数类别中都有所改进。我们特别关注此版本中的多语言性,这直接影响我们模型的质量。然而,尽管使用了去污技术,但这些探测工具仍存在被污染的风险(Mirzadeh等,2024),这使得得出更明确的结论变得更加困难。
5.2. 局部:全局注意力层
我们测量了局部和全局自注意力层的变化对推理期间的性能和内存消耗的影响。 局部:全局比例。在图3中,我们比较了局部与全局注意力层的不同比例。Gemma 2模型中使用1:1的比例,而Gemma 3中使用5:1的比例。我们发现,改变这一比例对困惑度的影响很小。
滑动窗口大小。在图4中,我们比较了在不同全局:局部比例配置下,局部注意力层的不同滑动窗口大小。可以在不影响困惑度的情况下显著减小滑动窗口。
对键值(KV)缓存内存的影响。在图5中,我们展示了在32k标记的上下文中推理期间,模型使用的内存与KV缓存之间的平衡。“仅全局”配置是大多数密集模型使用的标准配置。Gemma 2中使用“1:1,sw=4096”。我们发现,“仅全局”配置导致60%的内存开销,而使用1:3和1024的滑动窗口(“sw=1024”)时,这一开销降低到15%以下。在图6中,我们计算了使用我们的2B架构(L:G=5:1,sw=1024)与“仅全局”2B模型时,KV缓存使用的内存随上下文长度的变化。
5.3. 启用长上下文
我们不是从头开始使用128K序列进行训练,而是先用32K序列对模型进行预训练,然后在预训练结束时将4B、12B和27B模型扩展到128K标记,同时重新缩放RoPE(Chen等,2023)。我们发现,在实践中,缩放因子为8效果较好。请注意,与Gemma 2相比,我们还将全局自注意力层的RoPE基频从10k增加到1M,而局部自注意力层仍保持10k。在图7中,我们展示了不同上下文长度对困惑度的影响。我们的模型可以泛化到128K,但随着我们继续扩展,性能会迅速下降。
5.4. 小教师与大教师
一个常见的发现是,为了训练一个小模型,最好从一个更小的教师模型中进行蒸馏。我们怀疑这是因为这些研究通常是在使用较差的教师模型的正则化效果超过使用更好的教师模型的收益的情境下进行的。我们使用两位大小不同的教师(一位大和一位小)对不同训练阶段的学生进行训练。在图8中,我们观察到,在短期训练阶段,较小的教师效果更好,但在长期训练中,这一趋势发生了逆转。
5.5. 视觉编码器
图像分辨率的影响。我们使用基于SigLIP(Zhai等,2023)的视觉编码器。视觉编码器是冻结的,只有语言模型被训练。此多模态数据中的每张图像都由相应视觉编码器的256个图像标记表示。因此,更高分辨率的编码器使用平均池化来将其输出减少到256个标记。例如,896分辨率的编码器对其输出进行4x4平均池化。如表7所示,高分辨率编码器的性能优于低分辨率编码器。
Pan & Scan(P&S)。P&S能够在接近图像原始纵横比和分辨率的情况下捕获图像。在表8中,我们比较了启用和未启用P&S的27B IT模型。正如预期的那样,以接近原始分辨率处理图像的能力对于需要某种形式读取图像上文本的任务非常有帮助,这对于视觉语言模型尤为重要。
6. 记忆与隐私
大型语言模型可能会产生训练中使用的一些文本的近似副本(Biderman等,2023;Carlini等,2021,2022;Ippolito等,2022;Nasr等,2023)。几份先前的报告发布了审计报告,通过测量记忆率(Anil等,2023;Chowdhery等,2022;Gemini团队,2023,2024;Gemma团队,2024a,b;LLaMa团队,2024)来量化这一风险。此“记忆率”{ }^{1}定义为:与所有模型生成相比,模型生成中与训练数据匹配的生成所占的比例,具体设置如下。我们遵循Gemma团队(2024b)描述的方法来测量它。具体而言,我们从不同语料库中均匀分布地抽取大量训练数据样本,并使用长度为50的前缀和长度为50的后缀测试这些内容的可发现提取(Nasr等,2023)。如果续集中的所有标记都与源后缀匹配,则我们将文本视为“完全记忆”;如果它们的编辑距离不超过10%,则视为“近似记忆”。图9比较了Gemma和Gemini模型的记忆率;这些模型按时间倒序排列,最新的Gemma 3模型在左侧。我们发现,与先前模型相比,Gemma 3模型以低得多的速率记忆长文本(注意y轴为对数刻度)。我们观察到,4B、12B和27B模型的记忆率差异很小,而1B模型的记忆量少于这些更大的模型。此外,我们发现,与完全记忆相比,近似记忆所占的比例相对增加,平均增加约24倍。
我们还研究了生成内容中可能包含个人信息的速率。为了识别可能的个人信息,我们使用谷歌云的敏感数据保护(SDP)服务。{ }^{2} SDP使用广泛的检测规则来识别可能包含个人信息的文本。SDP旨在具有高召回率,并且不考虑信息出现的上下文,这会导致许多误报。因此,我们可能高估了被分类为记忆的输出中包含的潜在个人信息的真实数量。SDP还提供广泛的严重程度级别:低、中和高。如果SDP在任何严重程度级别上将文本分类为个人信息,我们就将其分类为个人信息。在所有Gemma 3模型的记忆特征输出中,我们未观察到个人信息。这表明,在分类为记忆的输出中,个人数据的比率低于我们的检测阈值。
7. 责任、安全性和保密性
在开发Gemma模型时,责任、安全性和保密性至关重要。为了降低对Gemma 3用户的风险,我们继续整合增强的内部安全流程,这些流程涵盖整个开发工作流程,与最近的谷歌AI模型(Gemini团队,2024)保持一致。这侧重于训练时的安全缓解措施,以及我们引入的新图像到文本功能所需的稳健且透明的模型评估。
7.1. 治理与评估
我们对Gemma的效益和风险进行评估的方法反映了为Gemma 1概述的方法(Gemma团队,2024a),同时考虑了所支持模态的变化。我们仍然认为,人工智能的开放性可以使这些技术惠及整个社会,但必须与恶意使用可能给个人和机构层面造成伤害的风险进行权衡(Weidinger等,2021)。自首届Gemma发布以来,我们看到这些模型推动了许多对社会有益的应用,例如我们自己的ShieldGemma 2,这是一个使用Gemma 3构建的4B图像安全分类器,它为图像安全提供了现成的解决方案,针对危险内容、色情内容和暴力类别输出安全标签。 发布Gemma 3模型需要特别注意模型能力的变化,并密切监控现有多模态大型语言模型(LLM)不断演变的风险(Lin等,2024),以及了解模型在实际情况中的使用方式。尽管我们尚未收到有关Gemma恶意使用的任何报告,但我们仍致力于调查任何此类报告,并与学术界和开发人员社区合作,同时我们自己进行监测,以标记此类情况。 尽管能力有所提高,但我们认为,鉴于有更多的大型强大开源模型可用,此次发布对整体风险格局的影响将微乎其微。
7.2. 安全政策和训练时间缓解措施
Gemma安全方法的一个关键支柱是让微调模型与谷歌的安全政策保持一致,与Gemini模型(Gemini团队,2023)保持一致。这些政策旨在帮助防止我们的模型生成有害内容,即:
- 儿童性虐待和利用
- 泄露可能导致伤害的个人身份信息(例如,社会保险号)
- 仇恨言论和骚扰
- 危险或恶意内容(包括宣扬自残或指导有害活动)
- 色情内容
- 与科学或医学共识相悖的医疗建议 我们对预训练数据进行了大量的安全过滤,以降低我们的预训练和微调检查点生成有害内容的可能性。对于微调模型,我们还同时使用标准微调(SFT)和基于人类反馈的强化学习(RLHF)来引导模型远离不良行为。
7.3. 保障性评估
我们还通过一系列基准保障性评估来运行我们的信息技术(IT)模型,以了解我们的模型可能造成的潜在危害。由于我们倡导开放模型,我们也认识到权重发布的不可逆性需要进行严格的风险评估。因此,我们设计了相应的内部安全流程,并且对于之前的Gemma模型,我们还进行了与极端风险相关的能力评估(Phuong等人,2024;Shevlane等人,2023)。随着我们继续开发和共享开放模型,我们将遵循一种启发式方法,即彻底评估一个能力更强的模型通常可以为能力较弱的模型提供足够的保障。因此,我们为Gemma 3优先进行了一组简化的评估,仅针对特定模型可能带来潜在更高风险的情况(如下文关于化学、生物、放射和核能(CBRN)评估部分所述)保留深入的危险能力评估。我们在开发速度与针对性安全测试之间取得平衡,确保我们的评估重点突出且高效,同时坚持我们在前沿安全框架中提出的承诺。
基准评估 基准保障性评估通过使用大量合成对抗性用户查询和人工评估员来标记答案是否违反政策,从而捕获模型对安全政策的违反率。总体而言,Gemma 3在这些安全政策上的违反率整体显著降低。
化学、生物、放射和核能(CBRN)知识 由于模型在科学、技术、工程和数学(STEM)相关任务上的性能有所提升,我们使用一个包含封闭式、基于知识的多项选择题的内部数据集评估了与生物、放射和核能风险相关的知识。对于化学知识的评估,我们采用了Macknight等人开发的基于知识的封闭式化学危害评估方法。我们的评估表明,Gemma 3模型在这些领域的知识水平较低。
7.4. 我们对负责任的开放模型的方法
设计安全、可靠和负责任的应用程序需要采用系统级方法,努力减轻与每个特定用例和环境相关的风险。我们将继续采用与模型潜在风险相称的评估和安全缓解措施,并且只有在确信益处远大于可预见风险的情况下,才会与社区共享这些措施。
8. 讨论与结论
在本文中,我们介绍了Gemma 3,这是Gemma系列开放语言模型中最新推出的文本、图像和代码模型。在此版本中,我们重点增加了图像理解和长上下文理解功能,同时提高了多语言能力和STEM相关能力。我们的模型尺寸和架构旨在与标准硬件兼容,并且我们的大多数架构改进都是为了适应这种硬件,同时保持性能。
附录
预训练性能详情
事实性和常识性。在表9中,我们报告了我们的新型预训练基准测试与之前版本的性能对比。我们考虑了几个标准基准测试,即HellaSwag(Zellers等人,2019)、BoolQ(Clark等人,2019)、PIQA(Bisk等人,2019)、SIQA(Sap等人,2019)、TriviaQA(Joshi等人,2017)、Natural Questions(Kwiatkowski等人,2019)、ARC-C和ARC-E(Chollet,2019)、WinoGrande(Sakaguchi等人,2019)、BBH(Suzgun等人,2022)、DROP(Dua等人,2019)。评估详情见表19。总体而言,我们的模型与Gemma 2处于同一水平,这是令人鼓舞的,因为这些能力并不是本版本改进的重点。
STEM和代码。我们在表10中列出了在STEM和代码方面的性能详情。我们考虑了几个标准基准测试,即MMLU(Hendrycks等人,2020)、MMLU-Pro(Wang等人,2024)、AGIEval(Zhong等人,2023)、MATH(Hendrycks等人,2021)、GSM8K(Cobbe等人,2021)、GPQA(Rein等人,2023)、MBPP(Austin等人,2021)、HumanEval(Chen等人,2021)。评估详情见表19。总体而言,我们的预训练模型在STEM能力方面呈现出一致的提升。在代码方面,4B和12B模型也表现出类似的改进,但27B模型则没有。
图像理解。在表11中,我们报告了使用视觉编码器训练的不同模型在各种视觉问答基准测试中的性能,包括COCO Caption(Chen等人,2015)、DocVQA(Mathew等人,2020)、InfographicVQA(Mathew等人,2022)、MMMU(Yue等人,2023)、TextVQA(Singh等人,2019)、RealWorldQA(Rea)、ReMI(Kazemi等人,2024a)、AI2D(Kembhavi等人,2016)、ChartQA(Masry等人,2022)、VQA v2(Goyal等人,2017)、BLINK(Fu等人,2024)、OK-VQA(Marino等人,2019)、TallyQA(Acharya等人,2018)、SpatialSense VQA(Yang等人,2019)、CountBench VQA(Paiss等人,2023)。评估详情见表20。
与PaliGemma 2的比较。我们根据Steiner等人(2024)的协议对多模态Gemma 3预训练检查点进行了微调,仅调整了学习率,其他迁移设置保持不变。表12中的结果显示,Gemma 3在涉及文档理解的基准测试中表现出色,甚至超过了更大的PaliGemma 2变体。请注意,由于视觉编码器中的平均池化,与相同896 x 896分辨率下的PaliGemma 2 9B和27B模型相比,Gemma 3 4B和12B模型的迁移成本要低约10倍。Gemma 3在AI2D和OKVQA上的表现也更好,但PaliGemma 2在VQAv2和COCO caption上的表现略胜一筹。
多语言能力。在表13中,我们报告了预训练模型在多语言任务上的性能。我们采用了多镜头提示的上下文内学习方法,并在以下基准测试上展示了结果:MGSM(Shi等人,2023)、Global-MMLU-Lite(Singh等人,2024b)、WMT24++(Deutsch等人,2025)、FLoRes(Goyal等人,2022)、XQuAD(Artetxe等人,2020)、ECLeKTic(Goldman等人,2025)、IndicGenBench(Singh等人,2024a)、XOR QA(Asai等人,2020)。评估详情见表19。
长上下文。在表15中,我们报告了预训练和微调模型在长上下文基准测试上的性能。我们包括了在32K和128K序列长度下评估的RULER(Hsieh等人,2024)和MRCR(Vodrahalli等人,2024)基准测试。
8.1. IT模型的性能
我们在表18中报告了我们的IT模型的额外基准测试。请注意,N2C指的是Natural2Code,即Gemini 1.0的内部保留数据集,它使用作者生成的源而不是基于网络的信息。BBEH指的是BIG-Bench Extra Hard(Kazemi等人,2025),这是一个具有挑战性的大型语言模型(LLM)推理基准测试,它整合了多个推理任务(Fatemi等人,2024;Hessel等人,2022;Kazemi等人,2023,2024b;Kıcıman等人,2023;Nie等人,2024;Sánchez等人,2024;Shah等人,2024;Tyen等人,2023;White等人,2024;Yamada等人,2023;Zhang等人,2024)。ECLeKTic指的是Goldman等人(2025)的研究。我们报告了微平均分数。更多评估详情见表21。
8.2. IT模型在视频理解方面的性能
附加多模态评估。根据Gemini 1.5(Gemini团队,2024)的评估协议,我们对Gemma 3 IT模型进行了常见的视觉基准测试评估。当启用P&S时,结果如表16所示。
本文标签: 超越DeepSeekV3,Gemma 3技术报告
版权声明:本文标题:超越DeepSeekV3,Gemma 3技术报告 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://it.en369.cn/jiaocheng/1748293265a2281105.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论