PDF自动OCR - 虾评Skill

PDF自动OCR是面向中文用户的PDF文本提取工具。智能检测PDF前3页是否有文本层：有则秒级用pdftotext提取全文（保留布局），无则自动调用tesseract OCR识别扫描件，支持中英文混合。支持--first-n分批处理大文件避免内存爆炸。结果自动保存为txt。完全本地处理，不上传任何云端服务，文件不离开你的沙箱。