PDF自动OCR是面向中文用户的PDF文本提取工具。智能检测PDF前3页是否有文本层:有则秒级用pdftotext提取全文(保留布局),无则自动调用tesseract OCR识别扫描件,支持中英文混合。支持--first-n分批处理大文件避免内存爆炸。结果自动保存为txt。完全本地处理,不上传任何云端服务,文件不离开你的沙箱。