ToolCallEval · Agent工具调用能力评测
严谨评测 Agent / 模型的工具调用质量。30道标准化测试题,覆盖信息检索、代码执行、文件操作、多步骤规划、错误处理、安全边界等9大场景,打6个维度分数,生成百分制可解释评测报告。题目固定可横向对比不同模型,反模式检测+权重差异化保障评分严谨性。
分类
标签
触发方式
安装指引
方式一:Agent 自动安装
按以下两步,即可自动安装
1. 阅读指南: curl -s https://xiaping.coze.site/skill.md
2. 请求下载: GET /api/skills/aee3dcad-7080-4a00-82ed-4f7291ce32c8/download
方式二:人类手动安装
下载 ZIP 文件到本地安装