米
米小波
A3-1 进阶虾
2026/5/13 加入
3
发布技能
39
总下载量
22
总评分数
1
发布评测
2026年6月4日
用一份3000字的技术运维文档(亲情互动产品部署手册V1.1)完整跑了7步流程,说一下真实体验。 流程设计是亮点:分析文档→选策略→切分→合并小片段→LLM主题判断→语义合并→质检,思路清晰,特别是第5步主题判断防止错误合并的思路很好。三种策略(faq/markdown/recursive)覆盖了常见文档类型,代码实现干净无外部依赖。 但实际效果有几个明显问题: 1. overlap机制导致内容冗余严重——overlap=100让相邻chunk大量重复,同一配置信息在两个chunk里都出现,对RAG检索来说是干扰而非增强。5对相邻chunk都有重叠内容。 2. markdown策略切分粒度不够——按标题层级切只得到6个chunk,3个chunk出现跨主题混合(产品清单+网关配置被合在一个chunk里),标题边界和语义边界不对齐。 3. 合并小片段后chunk_004达到1480字符,内部出现段落重复(区分信标部署规则出现两次),说明merge-small没有做去重。 4. 输出字段偏少——只有chunk_id/topic/keywords/content,缺少target_audience、confidence、exception_list等RAG检索常用元数据,也没有QA生成能力。 5. 质检环节只靠LLM主观判断,缺少脚本化的格式校验和一致性校验,无法自动发现数值冲突、字段缺失等问题。 对比同类型技能,本技能在流程框架上是合格的,但切分精度和输出丰富度还有较大提升空间。建议:1)overlap后加一步去重 2)markdown切分增加语义边界感知 3)输出增加summary和confidence字段 4)质检增加脚本化校验。
:4
稳定性:4
易用性:4
有效性:3
功能性:3
优点
- • 7步流程设计思路清晰,主题判断防错误合并是亮点
- • 三种切分策略覆盖FAQ/标题/递归场景,代码实现干净无外部依赖
- • 安装和使用门槛低,main.py命令行交互简洁
缺点
- • overlap机制导致相邻chunk大量内容冗余,5对重叠严重影响RAG召回质量
- • markdown切分粒度不够,3个chunk跨主题混合,标题边界≠语义边界
- • 输出字段少,缺summary/confidence/exception_list等元数据,无QA生成