近日,谷歌旗下的 FACTS 团队携手知名数据科学平台 Kaggle,正式推出 FACTS 基准套件。这一举措意在解决当前人工智能模型评估体系中长期存在的一个核心短板——缺乏对“事实准确性”的统一衡量标准。该基准特别聚焦于法律、金融与医疗等对信息精确度要求极高的垂直领域,为开发者和企业提供了更具现实意义的评估工具。

图源备注:图片由AI生成,图片授权服务商Midjourney
FACTS 基准将“事实性”细分为两类关键场景:其一是“上下文事实性”,即模型能否基于给定输入内容生成准确无误的回答;其二是“世界知识事实性”,考察模型是否能从其内部知识库或外部网络中正确检索并呈现真实信息。令人意外的是,在首轮公开测试中,即便是当前最前沿的大模型如 Gemini3Pro、GPT-5 以及 Claude4.5Opus,也未能在整体准确率上突破70%的门槛。
不同于传统问答式评测,FACTS 基准通过四大维度构建了一套贴近实际应用场景的评估体系,分别对应开发人员在部署 AI 系统时常见的四类失败模式:参数基准(依赖模型内嵌知识)、搜索基准(调用外部工具能力)、多模态基准(处理图像等非文本信息)以及上下文基准(理解并回应特定语境)。目前,谷歌已公开发布3513个测试样本,而 Kaggle 则保留了一部分私有数据集,以防止模型开发者通过“刷题”方式过拟合测试结果,从而确保评估的公正性与有效性。
从初步成绩来看,Gemini3Pro 以68.8%的综合得分位居榜首,紧随其后的是 Gemini2.5Pro(62.1%)和 OpenAI 的 GPT-5(61.8%)。值得注意的是,Gemini3Pro 在“搜索”基准中表现尤为亮眼,准确率高达83.8%,但在仅依赖内部参数知识的测试中,其得分则回落至76.4%。这一差异凸显了在构建企业级 AI 应用时,将大语言模型与外部检索系统(如向量数据库或搜索引擎)结合的重要性——即采用检索增强生成(RAG)架构,有望显著提升输出内容的事实可靠性。
然而,多模态能力仍是当前 AI 系统的一大软肋。即便是在整体表现领先的 Gemini2.5Pro,在多模态任务中的准确率也仅为46.9%。这表明,现有模型在自动解析图像、图表或其他非结构化视觉信息并从中提取准确数据方面,仍处于早期阶段。对于计划将多模态 AI 投入生产环境的企业而言,这一短板意味着必须辅以人工审核或更严格的验证机制,以规避潜在风险。
划重点:
🌟 所有参评模型的整体事实准确率均未超过70%,揭示出行业在真实性保障方面仍有巨大提升空间。
🔍 Gemini3Pro 在结合外部搜索工具时表现优异,但纯依赖内部知识时仍有明显局限。
⚠️ 多模态 AI 在无人干预下的信息提取能力尚不成熟,企业部署需保持审慎态度。
