python日常总结

2022-06

2022-05

2022-04

2022-03

2022-02

2022-01

2021-12

2021-11

2021-10

2021-09

2021-08

2021-07

2021-06

2021-05

2021-04

2021-03

2020-12

2020-10

2020-09

2020-08

2020-07

2020-06

2020-05

2020-04

2020-03

总结python中可操作pdf的库

总结python中可操作pdf的库

或是创建pdf，或是从pdf中抽取有价值的信息，你一定在搜索引擎里苦苦的搜索过如何用python来处理pdf，本文总结了一些python处理pdf的第三方库信息，可做参考。

1. 创建，读取pdf

PyPDF4 , 一个纯python PDF库，能够拆分、合并、裁剪和转换PDF文件的页面
pdfrw , 一个Python库和实用程序，用于读写PDF文件
reportlab, ReportLab是一个久经考验的、超级健壮的开源引擎，用于创建复杂的、数据驱动的PDF文档和自定义矢量图形。它是免费的，开源的，用Python编写的
python-pdfkit, 可将html转换为pdf

2. 从pdf获取数据

Parsr, 是一个小巧实用的文档（图像，pdf）清理，解析和提取的工具，可为数据科学家和开发者生成随时可用且整理完成的数据
pdfminer.six, 它是一个从PDF文档中提取信息的工具, 重点是获取和分析文本数据
pdfplumber, 获取pdf数据
pdfreader 是一个pythonic api，它遵循PDF-1.7规范, 它允许解析文档、提取文本、图像、字体、cmap和其他数据；访问PDF中的不同对象文件

3. 解析pdf 中的表格

camelot, 使任何人都可以轻松地从PDF文件中提取表！
tabula, 可以帮助你获取PDF文件中的数据表
pdftabextract, 一组用于数据挖掘（OCR处理）PDF的工具

4. pdf一般文本提取

tika-python, apachetika库的Python端口，使Tika可以使用Tika REST服务器
textract, 与 tika-python很像，但纯python实现

5. OCR

OCRmyPDF, OCRmyPDF为扫描的PDF文件添加OCR文本层，允许搜索或复制粘贴这些文件
EasyOCR, 支持40多种语言的OCR，包括中文、日语、韩语和泰语

6. 其他

pdfc, 压缩pdf
pdf-redactor , 一个通用的PDF文本层编辑工具，用纯Python编写
pdf-scripts, 脚本（主要是Bash）来修复、验证、OCR、压缩（等等）pdf

扫描关注, 与我技术互动

QQ交流群: 211426309

加入知识星球, 每天收获更多精彩内容

分享日常研究的python技术和遇到的问题及解决方案