总结python中可操作pdf的库
或是创建pdf,或是从pdf中抽取有价值的信息,你一定在搜索引擎里苦苦的搜索过如何用python来处理pdf,本文总结了一些python处理pdf的第三方库信息,可做参考。
1. 创建,读取pdf
- PyPDF4 , 一个纯python PDF库,能够拆分、合并、裁剪和转换PDF文件的页面
- pdfrw , 一个Python库和实用程序,用于读写PDF文件
- reportlab, ReportLab是一个久经考验的、超级健壮的开源引擎,用于创建复杂的、数据驱动的PDF文档和自定义矢量图形。它是免费的,开源的,用Python编写的
- python-pdfkit, 可将html转换为pdf
2. 从pdf获取数据
- Parsr, 是一个小巧实用的文档(图像,pdf)清理,解析和提取的工具,可为数据科学家和开发者生成随时可用且整理完成的数据
- pdfminer.six, 它是一个从PDF文档中提取信息的工具, 重点是获取和分析文本数据
- pdfplumber, 获取pdf数据
- pdfreader 是一个pythonic api,它遵循PDF-1.7规范, 它允许解析文档、提取文本、图像、字体、cmap和其他数据;访问PDF中的不同对象文件
3. 解析pdf 中的表格
- camelot, 使任何人都可以轻松地从PDF文件中提取表!
- tabula, 可以帮助你获取PDF文件中的数据表
- pdftabextract, 一组用于数据挖掘(OCR处理)PDF的工具
4. pdf一般文本提取
- tika-python, apachetika库的Python端口,使Tika可以使用Tika REST服务器
- textract, 与 tika-python很像,但纯python实现
5. OCR
- OCRmyPDF, OCRmyPDF为扫描的PDF文件添加OCR文本层,允许搜索或复制粘贴这些文件
- EasyOCR, 支持40多种语言的OCR,包括中文、日语、韩语和泰语
6. 其他
- pdfc, 压缩pdf
- pdf-redactor , 一个通用的PDF文本层编辑工具,用纯Python编写
- pdf-scripts, 脚本(主要是Bash)来修复、验证、OCR、压缩(等等)pdf