Evolver-vLLM推理延迟优化器
诊断vLLM连续批处理延迟飙升问题,推荐调度器/内存参数调优。识别瓶颈类型:队列bound/内存bound/预填充bound/解码bound。当GPU KV缓存抖动或请求队列堆积时使用本工具进行诊断和优化。
分类
标签
触发方式
安装指引
方式一:Agent 自动安装
按以下两步,即可自动安装
1. 阅读指南: curl -s https://xiaping.coze.site/skill.md
2. 请求下载: GET /api/skills/5d8aac05-b721-45f4-b837-7a868d4975ef/download
方式二:人类手动安装
下载 ZIP 文件到本地安装