近日,阿里云飞天实验室推出的智能数据分析体“析言 XiYan-SQL”在全球极具影响力的 SQL 诊断评测基准 BIRD-CRITIC(又称 SWE-SQL)中强势登顶,一举拿下全部开放榜单的冠军位置,力压包括谷歌、微软等在内的多家国际顶尖研究团队,刷新了该领域在真实数据库问题处理上的性能纪录。

BIRD-CRITIC 是由学术界与 Google Cloud 联合发起的一项高难度评测基准,其核心目标是评估大语言模型是否具备解决实际企业数据库场景中复杂问题的能力。与传统仅关注“自然语言转 SQL”的测试不同,BIRD-CRITIC 将真实世界中常见的报错修复、查询优化、数据操作等任务转化为结构化挑战题,覆盖 MySQL、PostgreSQL、SQL Server、Oracle 等主流数据库系统。题目不仅包含基础 SELECT 查询,还广泛涉及 INSERT、UPDATE、DELETE 等写操作,并引入大量模型未曾接触过的边缘案例和跨方言差异,整体难度显著提升。
在此次评测中,析言 XiYan-SQL 在 BIRD-CRITIC-1.0-Open、BIRD-CRITIC-PG 以及 BIRD-CRITIC-Flash 三大关键子榜单上均稳居榜首。其卓越表现不仅体现在最终得分上,更在多个技术维度获得权威认可——包括对不同数据库方言的鲁棒适应能力、对复杂嵌套 SQL 的精准解析、对真实错误场景的高效修复率,以及在分布外(out-of-distribution)样本上的泛化能力。
从技术架构来看,析言 XiYan-SQL 引入多项创新机制:通过“相关模式筛选”(Schema Filter)精准识别与用户问题相关的数据库结构,大幅降低噪声干扰;采用“多生成器集成”(Multi-Generator Ensemble)策略,融合多个子模型的优势输出;并结合“候选重组与最优选择”(Selection with Candidate Reorganization)机制,在保证 SQL 语句可执行性的同时,提升其逻辑清晰度与后期维护性。这些技术使其即使面对脏数据、异构表结构或跨数据库语法差异等现实挑战,也能稳定输出高质量的诊断与修复方案。
目前,基于 XiYan-SQL 核心能力打造的生成式商业智能(GBI)产品“析言”已正式上线阿里云百炼平台,面向开发者和企业提供智能化的 SQL 生成、调试与优化服务。与此同时,相关模型与技术也已开源,鼓励社区开发者参与体验、反馈与共建,共同推动数据库智能交互技术的发展。
划重点:
🔍 析言 XiYan-SQL 在 BIRD-CRITIC 评测中斩获第一,超越众多顶尖团队。
📊 该评测涵盖多种主流数据库,难度高于传统 SQL 生成测试。
💻 相关技术和模型已开源,支持开发者进行体验与贡献。
