锐意创新 · 敏锐洞察 · 锐不可当

国产模型霸榜 OpenClaw 评测:MiniMax、Kimi 成功率超 93%,速度碾压国际大厂

PinchBench 是首个专为 OpenClaw 智能体设计的评测榜单,由 Agent 基础设施创业团队 Kilo AI 推出。与传统大模型 Benchmark 不同,它不测试知识问答或数学推理,而是通过 23 个真实任务(查资料、写邮件、调用 API 等)评估模型在实际工作流中的执行能力,核心指标为成功率、速度和成本。由于评测贴近真实场景,榜单发现"更大模型并非总是制胜",针对 Agent 优化的模型往往排名更靠前。

截至发稿,中国模型在榜单上表现突出:成功率方面,MiniMax M2.1(93.6%)和 Kimi K2.5(93.4%)分列第二、三名,仅次于谷歌 Gemini 3 Flash(95.1%);速度方面,MiniMax M2.5 超越 Gemini、Llama 等国际模型登上榜首。不过价格上国产模型仍处劣势,约为 OpenAI、谷歌模型的 3 倍。综合成功率与价格,TOP8 模型中有 4 个来自中国,显示出国产大模型在智能体任务上的竞争力。

阅读量:1434
阅读时间:1分钟