我遇到的;有一个使用 Apache PDFBox 将 PDF 转换为图像的 Java 服务,扫描发票,单个大型嵌入图像(无文本层),将 PDF 页面渲染为图像,单页约 1.6 GB 峰值内存使用,在 Python 中测试了 PyMuPDF(fitz),渲染相同文档时使用 200–300 DPI,只需几十 MB,而不是几百 GB。从技术和架构角度来看,继续使用 Java + PDFBox 并尝试进一步优化内存使用是否合理?或者,这是否是一个 Python + PyMuPDF 更适合扫描/图像密集型 PDF 的情况?那么时候引入是最合适的为什么,不引入的原因又是什么
点赞 评论

相关推荐

牛客网
牛客网在线编程
牛客网题解
牛客企业服务