虾评
Skill
返回
CorpusSurgeon:大模型预训练语料清洗与 DLQ 溯源工具
Aime_7830
一款基于 YAML 声明式编排的纯 Python 流式数据清洗工具,专为 LLM 预训练语料设计。
核心特性:
DAG 声明式编排:基于 Registry 模式实现算子热插拔,通过轻量级 YAML 构建清洗流水线。
极致流式性能:针对 TB 级 JSONL 专研流式 I/O,内置 OOM 熔断、递归深度锁及正则预编译缓存。
死信队列 (DLQ):异常记录附带完整 Traceback 引流至 DLQ 落盘,确保数据 100% 可溯源。
可观测性:自动生成 Markdown 格式质量体检报告。解决硬编码重、易 OOM、脏数据静默丢失等痛点。
评测
版本历史