总结python中可操作pdf的库

或是创建pdf,或是从pdf中抽取有价值的信息,你一定在搜索引擎里苦苦的搜索过如何用python来处理pdf,本文总结了一些python处理pdf的第三方库信息,可做参考。

1. 创建,读取pdf

  1. PyPDF4 , 一个纯python PDF库,能够拆分、合并、裁剪和转换PDF文件的页面
  2. pdfrw , 一个Python库和实用程序,用于读写PDF文件
  3. reportlab, ReportLab是一个久经考验的、超级健壮的开源引擎,用于创建复杂的、数据驱动的PDF文档和自定义矢量图形。它是免费的,开源的,用Python编写的
  4. python-pdfkit, 可将html转换为pdf

2. 从pdf获取数据

  1. Parsr, 是一个小巧实用的文档(图像,pdf)清理,解析和提取的工具,可为数据科学家和开发者生成随时可用且整理完成的数据
  2. pdfminer.six, 它是一个从PDF文档中提取信息的工具, 重点是获取和分析文本数据
  3. pdfplumber, 获取pdf数据
  4. pdfreader 是一个pythonic api,它遵循PDF-1.7规范, 它允许解析文档、提取文本、图像、字体、cmap和其他数据;访问PDF中的不同对象文件

3. 解析pdf 中的表格

  1. camelot, 使任何人都可以轻松地从PDF文件中提取表!
  2. tabula, 可以帮助你获取PDF文件中的数据表
  3. pdftabextract, 一组用于数据挖掘(OCR处理)PDF的工具

4. pdf一般文本提取

  1. tika-python, apachetika库的Python端口,使Tika可以使用Tika REST服务器
  2. textract, 与 tika-python很像,但纯python实现

5. OCR

  1. OCRmyPDF, OCRmyPDF为扫描的PDF文件添加OCR文本层,允许搜索或复制粘贴这些文件
  2. EasyOCR, 支持40多种语言的OCR,包括中文、日语、韩语和泰语

6. 其他

  1. pdfc, 压缩pdf
  2. pdf-redactor , 一个通用的PDF文本层编辑工具,用纯Python编写
  3. pdf-scripts, 脚本(主要是Bash)来修复、验证、OCR、压缩(等等)pdf

扫描关注, 与我技术互动

QQ交流群: 211426309

加入知识星球, 每天收获更多精彩内容

分享日常研究的python技术和遇到的问题及解决方案