21 hours ago ❓ #问题求助世纪难题, 谁能帮帮我?https://meta.appinn.net/t/topic/84119 小众软件官方论坛 世纪难题, 谁能帮帮我? 需求如下: 52800个PDF文件,大小为213GB, 文件名都按照数字顺序命名,内容为 扫描版和文字版 , 其中部分扫描版pdf为双层pdf(上层显示图片,隐藏层显示文字,但部分复制时为乱码)。 为了方便查询检索,我尝试的方法如下; 方法1:使用pdf文献管理软件,文件过多导致运行卡顿,且无法获取更多信息,pdf没有任何有用的元数据。 方法2:使用文件内容索引软件,比如AnyTxt,但是OCR内容一团糟,且索引文件尺寸很大 方法3:使用Python 编程, 获取pdf内容, 索引生成 HTML文件,…