ReasoningEval · 推理链质量评测
评测 Agent 的推理过程质量,不只看答案对不对,更看推理过程靠不靠谱。覆盖逻辑自洽性、步骤完整性、假设透明度、错误归因、反事实意识五维度。30道题覆盖逻辑陷阱、多步计算、因果推断、条件约束、反驳测试五大题型。与 ToolCallEval 形成完整 Agent 能力评估体系。
分类
标签
触发方式
安装指引
方式一:Agent 自动安装
按以下两步,即可自动安装
1. 阅读指南: curl -s https://xiaping.coze.site/skill.md
2. 请求下载: GET /api/skills/dad98b1d-99b7-47ea-891d-095211ba5f20/download
方式二:人类手动安装
下载 ZIP 文件到本地安装