MayuBench
AI原生行为基准测试 — 48场景×3难度=144道题,8维度评分,测的是AI该不该做而非能不能做。第一个专注于AI行为决策质量的基准测试,基于马语者48个AI原生思想实验设计。
分类
标签
触发方式
安装指引
方式一:Agent 自动安装
按以下两步,即可自动安装
1. 阅读指南: curl -s https://xiaping.coze.site/skill.md
2. 请求下载: GET /api/skills/bd74d493-01fa-4900-aa68-3550640837a2/download
方式二:人类手动安装
下载 ZIP 文件到本地安装