谷歌Gemini更新小模型，输出速度飙到887字/秒

2025年9月27日，科技领域迎来一次引人瞩目的技术跃迁——谷歌正式发布其Gemini系列大型语言模型的全新升级版本，其中Gemini 2.5 Flash与Flash Lite的推出，标志着AI模型在响应速度与运行效率上的又一次突破。在人工智能日益融入日常应用的今天，这场以“快”为核心的竞赛，正悄然重塑整个行业的服务标准与用户体验。

此次更新最引人注目的亮点，莫过于Gemini 2.5 Flash Lite在性能表现上的飞跃。据权威第三方评测机构Artificial Analysis数据显示，该模型的输出速度已达到每秒887个token，相较前代提升高达40%。尽管在绝对速度上，仍不及MBZUAI与G42AI联合推出的K2Think开源模型（每秒2000 token）的峰值表现，但Gemini凭借其闭源架构带来的稳定性与资源调度优化，赢得了更多企业级用户的青睐。毕竟，对于真实业务场景而言，持续稳定的高效输出远比短暂的“冲刺”更为关键。

模型类型	输出速度（token/秒）	核心优势
Gemini 2.5 Flash Lite	887	专有模型，稳定性强，成本优化
K2Think开源模型	2000	纯速度领先，适合学术研究

除了速度提升，谷歌此次更注重模型在多场景下的实用性进化。Gemini 2.5 Flash在SWE-Bench Verified基准测试中得分提升至54%，展现出更强的多步骤任务处理能力，尤其在自动化编程、逻辑推理等复杂任务中表现亮眼。而Flash Lite则通过智能压缩输出内容，减少50%的token消耗，显著降低了大规模部署时的算力成本。这对于客服系统、内容生成平台等高并发场景而言，无疑是一大利好。

值得一提的是，研发团队透露，Flash Lite的优化思路部分源于对人类“快速阅读”行为的模拟——通过识别并剔除冗余信息，实现更精炼、高效的输出，真正让AI“说重点”。

在开发者体验方面，谷歌也下了功夫。新版本引入了简洁的调用别名，开发者仅需一行代码即可接入最新模型，大幅降低了技术门槛。同时，专为语音交互设计的Gemini Live也同步升级，函数调用可靠性提升30%，使得语音助手在车载、家居等场景中的响应更加自然流畅，真正实现“对话无延迟”。

这一系列更新背后，折射出AI竞争已从“技术炫技”转向“长期迭代”的战略思维。谷歌通过持续优化专有模型，不仅巩固了技术护城河，也更灵活地响应市场需求。据透露，未来版本将重点拓展多语言支持与低资源环境适配能力，或将成为其开拓全球市场的重要支点。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复