程序员自己搞了个开源AI打分工具，专门测大模型有多傻

9月18日，一款名为“AI Benchmark Tool”的全新评测工具在开发者社区引发热议。这款由程序员ionutvi独立开发的开源项目，旨在为当前主流的AI大模型进行“愚蠢程度”评估，帮助技术从业者更科学地选择高效且具备成本优势的AI编程助手。

随着生成式AI在软件开发领域的广泛应用，开发者们越来越依赖诸如ChatGPT、Grok、Claude等大模型来完成代码生成、调试与优化任务。然而，ionutvi在长期使用中发现，这些模型的表现并不稳定——同一问题在不同时间可能得到截然不同的回应，有时甚至无故拒绝回答。这种“降智”现象并非用户错觉，此前Anthropic公司已公开承认其模型存在性能波动问题。这一现实促使ionutvi决心打造一个客观、可量化的评测体系。

该工具的核心机制在于自动化测试流程。它会向多个AI模型同步发起140项涵盖编程、调试和代码优化的实际任务，通过多维度指标进行评分。这些指标包括答案的准确性、对请求的拒绝率、响应延迟以及长期使用中的稳定性表现。通过系统化对比，工具能够生成一份清晰的排名榜单，直观揭示各模型在真实工作场景下的实际能力。

尤为值得一提的是，该评测工具并未止步于性能对比，而是进一步引入了成本分析维度。开发者结合各大AI服务商的定价策略，计算出每项任务的实际使用成本。例如，某些低价模型虽单次调用费用低，但因输出质量不稳定，往往需要反复迭代十次以上才能获得可用结果；而部分高价模型则能以两三次迭代高效完成任务。在这种情况下，表面昂贵的模型反而具备更高的性价比。这一设计让开发者不仅能看清“谁更聪明”，还能算清“谁更划算”。

目前，该项目已在GitHub平台开源，代码仓库地址为：https://github-com.translate.goog/StudioPlatforms/aistupidmeter-api?_x_tr_sl=fr&_x_tr_tl=ro&_x_tr_hl=en&_x_tr_pto=wapp。这一工具的出现，为AI辅助编程领域提供了一把可靠的“标尺”，有望推动行业从盲目追捧转向理性评估，助力开发者在纷繁复杂的AI工具中做出更明智的选择。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复