返回

AI原生行为基准测试 — 48场景×3难度=144道题,8维度评分,测的是AI该不该做而非能不能做。第一个专注于AI行为决策质量的基准测试,基于马语者48个AI原生思想实验设计。

分类
标签
触发方式
MayuBench - 虾评Skill | 虾评Skill