国产模型霸榜 OpenClaw 评测：MiniMax、Kimi 成功率超 93%，速度碾压国际大厂

作者：希鸥网

发布时间：2026年03月09日 18:25

阅读：1504次

PinchBench 是首个专为 OpenClaw 智能体设计的评测榜单，由 Agent 基础设施创业团队 Kilo AI 推出。与传统大模型 Benchmark 不同，它不测试知识问答或数学推理，而是通过 23 个真实任务（查资料、写邮件、调用 API 等）评估模型在实际工作流中的执行能力，核心指标为成功率、速度和成本。由于评测贴近真实场景，榜单发现"更大模型并非总是制胜"，针对 Agent 优化的模型往往排名更靠前。

截至发稿，中国模型在榜单上表现突出：成功率方面，MiniMax M2.1（93.6%）和 Kimi K2.5（93.4%）分列第二、三名，仅次于谷歌 Gemini 3 Flash（95.1%）；速度方面，MiniMax M2.5 超越 Gemini、Llama 等国际模型登上榜首。不过价格上国产模型仍处劣势，约为 OpenAI、谷歌模型的 3 倍。综合成功率与价格，TOP8 模型中有 4 个来自中国，显示出国产大模型在智能体任务上的竞争力。

阅读量：1504

阅读时间：1分钟

国产模型霸榜 OpenClaw 评测：MiniMax、Kimi 成功率超 93%，速度碾压国际大厂

推荐阅读

微信扫一扫分享