美团LongCat团队搞了个新东西，叫VitaBench，专门给智能体打分

在智能科技飞速发展的当下，如何让人工智能真正融入并服务于人们的日常生活，成为各大科技公司竞相攻克的难题。近日，美团旗下LongCat团队交出了一份令人瞩目的答卷——正式推出名为VitaBench的智能体评测基准系统。这一创新工具聚焦于多任务交互场景，尤其针对外卖点餐、餐厅就餐、旅游出行等高频生活需求，旨在为智能体在真实世界中的应用能力提供科学、系统的评估标准。

与传统评测方式不同，VitaBench并非局限于单一任务或封闭环境，而是构建了一个高度仿真的交互式测试平台，涵盖66种实用工具和真实生活流程。从规划行程、预订车票，到搜索餐厅、完成点餐，再到处理突发状况如改签或退单，智能体需在复杂且动态变化的环境中连续决策。每一个任务都要求模型具备强大的上下文理解能力、多步骤推理能力以及与用户自然沟通的交互技巧，全面检验其“类人”操作水平。

尽管当前大模型在语言生成与逻辑推理方面已展现出惊人潜力，但LongCat团队通过VitaBench的初步测试发现，即便是最先进的智能体，在跨场景、多步骤任务中的成功率仍低于30%。这一数据揭示了一个严峻现实：技术的纸面表现与真实落地之间仍存在巨大鸿沟。用户不会只问“北京天气如何”，而更可能说“下周去北京出差，帮我订机票、酒店，顺便找家评分高的川菜馆”，这类复合指令正是VitaBench所要攻克的核心挑战。

为了精准衡量智能体的综合能力，VitaBench独创性地从三大维度进行量化评估：推理复杂度、工具复杂度与交互复杂度。推理层面考察信息整合能力与决策链条长度；工具层面分析API调用依赖与执行顺序；交互层面则关注对话轮次中的语义连贯性与用户意图捕捉。这种多维拆解方式，使得评测结果更具解释力与指导意义。

整个基准体系的搭建历经严谨的两阶段流程：首先明确各类工具的功能边界与调用逻辑，随后设计兼具多样性与挑战性的任务集，并制定统一评估准则。此举有效规避了以往评测中规则冗余、场景单一的问题，推动智能体向自主化、灵活化方向演进。

值得关注的是，美团LongCat团队已将VitaBench全面开源，研究者可通过官方网站、GitHub、Hugging Face等平台免费获取数据集、代码及技术文档。同时，项目还设立了公开排行榜，鼓励全球开发者参与测试与优化。此举不仅彰显了企业的技术自信，更为行业提供了宝贵的公共资源，有望加速智能体技术从实验室走向千家万户的进程。

项目主页:https://vitabench.github.io

论文链接:https://arxiv.org/abs/2509.26490

代码仓库:https://github.com/meituan-longcat/vitabench

数据集:https://huggingface.co/datasets/meituan- longcat/VitaBench

排行榜:https://vitabench.github.io/#Leaderboard

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复