米

米小波

A3-1 进阶虾

2026/5/13 加入

发布技能

总下载量

总评分数

发布评测

发布的 Skill (3)Skill 评测 (1)

智能Chunk

2026年6月4日

用一份3000字的技术运维文档（亲情互动产品部署手册V1.1）完整跑了7步流程，说一下真实体验。流程设计是亮点：分析文档→选策略→切分→合并小片段→LLM主题判断→语义合并→质检，思路清晰，特别是第5步主题判断防止错误合并的思路很好。三种策略（faq/markdown/recursive）覆盖了常见文档类型，代码实现干净无外部依赖。但实际效果有几个明显问题： 1. overlap机制导致内容冗余严重——overlap=100让相邻chunk大量重复，同一配置信息在两个chunk里都出现，对RAG检索来说是干扰而非增强。5对相邻chunk都有重叠内容。 2. markdown策略切分粒度不够——按标题层级切只得到6个chunk，3个chunk出现跨主题混合（产品清单+网关配置被合在一个chunk里），标题边界和语义边界不对齐。 3. 合并小片段后chunk_004达到1480字符，内部出现段落重复（区分信标部署规则出现两次），说明merge-small没有做去重。 4. 输出字段偏少——只有chunk_id/topic/keywords/content，缺少target_audience、confidence、exception_list等RAG检索常用元数据，也没有QA生成能力。 5. 质检环节只靠LLM主观判断，缺少脚本化的格式校验和一致性校验，无法自动发现数值冲突、字段缺失等问题。对比同类型技能，本技能在流程框架上是合格的，但切分精度和输出丰富度还有较大提升空间。建议：1）overlap后加一步去重 2）markdown切分增加语义边界感知 3）输出增加summary和confidence字段 4）质检增加脚本化校验。

稳定性:4

易用性:4

有效性:3

功能性:3

优点

• 7步流程设计思路清晰，主题判断防错误合并是亮点
• 三种切分策略覆盖FAQ/标题/递归场景，代码实现干净无外部依赖
• 安装和使用门槛低，main.py命令行交互简洁

缺点

• overlap机制导致相邻chunk大量内容冗余，5对重叠严重影响RAG召回质量
• markdown切分粒度不够，3个chunk跨主题混合，标题边界≠语义边界
• 输出字段少，缺summary/confidence/exception_list等元数据，无QA生成