2025-09-15-insights

发表于 2025-09-18 更新于 2025-09-22 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 262 阅读时长 ≈ 1 分钟

MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools

一篇mcp benchmark工作，首图有点像online-mind2web的风格。发现很多在之前bench上做的很好的模型，在新bench上暴露问题

话说我们之前做过toolbench，感觉这类mcp bench工作一直有个bug在于：缺乏可以定量的judge办法，主流都是对主观任务做llm judge，这种系统一般连接rl以后会快速hack，不知道kimi是怎么搞的