0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Python的PDF表格提取器-Camelot

汽车电子威廉希尔官方网站 来源:Python实用宝典 作者: Ckend 2023-02-24 11:04 次阅读

图片

如果你有从PDF中批量提取表格的需求,那么这篇文章就是你的福音。

Python 第三方模块 Camelot 能够精准识别PDF中的表格信息,并提取为pandas数据结构,而且还能导出为多种格式:JSON,Excel,HTML和Sqlite。

下面给大家介绍这个模块的使用方法:

1.准备

开始之前,你要确保Python和pip已经成功安装在电脑上,如果没有,可以访问这篇文章:超详细Python安装指南 进行安装。

如果你用Python的目的是数据分析,可以直接安装Anaconda:Python数据分析与挖掘好帮手—Anaconda,它内置了Python和pip.

此外,推荐大家用VSCode编辑器,它有许多的优点:Python 编程的最好搭档—VSCode 详细指南。

请选择以下任一种方式输入命令安装依赖

  1. Windows 环境 打开 Cmd (开始-运行-CMD)。
  2. MacOS 环境 打开 Terminal (command+空格输入Terminal)。
  3. 如果你用的是 VSCode编辑器 或 Pycharm,可以直接使用界面下方的Terminal.
pip install camelot-py[cv]

2.使用

最简单的使用方式如下:

import camelot
# 1.读取pdf
tables = camelot.read_pdf('foo.pdf', flavor='stream')
# 2.导出pdf所有的表格为csv文件
tables.export('foo.csv', f='csv') # json, excel, html, sqlite

第一行,导入了camelot这个模块。

第二行,以stream的模式读取当前目录的foo.pdf文件。

第三行,将所有表格数据导出为 foo.csv 文件,并保存在当前文件夹下。

相当简单,请注意,read_pdf 的 flavor 参数是可选的,如果你不带这个参数,请注意需要安装 ghostscript 这个驱动,因为它默认使用 ghostscript 去用 lattice 模式。

3.进阶

3.1 处理背景线:

图片

可以看到,很多表格的线都隐藏在背景中。这种表格默认是不支持的,这时候我们需要让程序能够自动识别这样的表格:

tables = camelot.read_pdf('background_lines.pdf', process_background=True)

增加 process_background=True 参数即可。

3.2 指定表格区域

某些情况下无法正确识别到PDF中的表格,此时手动设定左上角和右下角的边界可能是有效果的:

tables = camelot.read_pdf('table_areas.pdf', flavor='stream', table_areas=['316,499,566,337'])

其中 table_areas 接受格式为 x1,y1,x2,y2 的字符串,其中(x1,y1) -> 左上角, (x2,y2) -> 右下角。在PDF坐标空间中,页面的左下角是原点,坐标为(0,0)。

本文的代码和示例,以及Camelot源仓库可在 Python实用宝典 公众号后台回复 camelot 下载

我们的文章到此就结束啦,如果你喜欢今天的Python 实战教程,请持续关注Python实用宝典。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • PDF
    PDF
    +关注

    关注

    1

    文章

    168

    浏览量

    33691
  • 数据结构
    +关注

    关注

    3

    文章

    573

    浏览量

    40124
  • python
    +关注

    关注

    56

    文章

    4793

    浏览量

    84634
收藏 人收藏

    评论

    相关推荐

    基于python读取excel表格

    Python:利用python读取excel表格的那些七七八八事
    发表于 12-28 14:23

    2021年度python13本电子书单含源码PDF电子版百度网盘下载

    2021年度python书单PDF电子版下载链接:https://pan.baidu.com/s/10bR41hpAXpsWZWkbSPxaRA提取码:cn85
    发表于 05-08 15:45

    python教程之如何使用XlsxWriter模块创建aexcel表格

    本文档的主要内容详细介绍的是python教程之如何使用XlsxWriter模块创建aexcel表格
    发表于 01-18 17:01 10次下载
    <b class='flag-5'>python</b>教程之如何使用XlsxWriter模块创建aexcel<b class='flag-5'>表格</b>

    使用Python操作excel表格的xlrd介绍

    本文档的主要内容详细介绍的是使用Python操作excel表格的xlrd介绍。
    发表于 07-02 08:00 2次下载

    Python编程入门》.pdf

    Python编程入门》.pdf
    发表于 02-11 16:03 0次下载

    如何使用OpenCV和Python从图像中提取感兴趣区域

    今天我们将一起探究如何使用OpenCV和Python从图像中提取感兴趣区域(ROI)。 在之间的文章中,我们完成了图像边缘提取,例如从台球桌中提取桌边。使用了简单的OpenC
    的头像 发表于 02-07 14:42 1843次阅读

    如何提取Word文档表格保存到Excel

    提取到Excel表中。例如,提取word文档中的财务数据、考勤数据等,将数据存储到 Excel表中,本次项目我们专门针对word文档中的表格数据进行解析与提取
    的头像 发表于 02-24 16:00 2779次阅读
    如何<b class='flag-5'>提取</b>Word文档<b class='flag-5'>表格</b>保存到Excel

    只需2行代码,轻松将PDF转换成Word

    可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-
    的头像 发表于 05-08 14:23 996次阅读
    只需2行代码,轻松将<b class='flag-5'>PDF</b>转换成Word

    CamelotPython超强大的PDF表格提取

    如果你有从PDF中批量提取表格的需求,那么这篇文章就是你的福音。 Python 第三方模块 Camelot 能够精准识别
    的头像 发表于 10-21 10:57 1530次阅读
    <b class='flag-5'>Camelot</b>:<b class='flag-5'>Python</b>超强大的<b class='flag-5'>PDF</b><b class='flag-5'>表格</b><b class='flag-5'>提取</b><b class='flag-5'>器</b>

    Camelot:超强大的PDF表格提取

    如果你有从PDF中批量提取表格的需求,那么这篇文章就是你的福音。 Python 第三方模块 Camelot 能够精准识别
    的头像 发表于 10-30 09:44 1005次阅读
    <b class='flag-5'>Camelot</b>:超强大的<b class='flag-5'>PDF</b><b class='flag-5'>表格</b><b class='flag-5'>提取</b><b class='flag-5'>器</b>

    Newspaper:用于提取和整理文章的python

    Newspaper 是一个很棒的python库,用于提取和整理文章。 它有以下的优点: 多线程文章下载框架 识别新闻网址 从html提取文本 从html提取顶部图像 从html
    的头像 发表于 10-30 14:24 755次阅读

    Camelot模块的使用方法

    如果你有从PDF中批量提取表格的需求,那么这篇文章就是你的福音。 Python 第三方模块 Camelot 能够精准识别
    的头像 发表于 11-01 10:02 1024次阅读
    <b class='flag-5'>Camelot</b>模块的使用方法

    Python 如何对文件系统进行监控提取

    现在有一个应用场景,需要对文件系统进行监控,发生变化时产生日志,对新增的文件做一些相应的操作。比如说应用到我们之前的高潮提取:若当前文件夹下增加了一个音乐文件,监控就调用高潮提取
    的头像 发表于 11-02 15:25 502次阅读
    <b class='flag-5'>Python</b> 如何对文件系统进行监控<b class='flag-5'>提取</b>

    Python中Excel转PDF的实现步骤

    将Excel文件转换为PDF可以方便储存表格数据,此外在打印或共享文档时也能确保表格样式布局等在不同设备和操作系统上保持一致。今天给大家分享一个使用第三方Python库Spire.XL
    的头像 发表于 11-20 15:02 1125次阅读
    <b class='flag-5'>Python</b>中Excel转<b class='flag-5'>PDF</b>的实现步骤

    python如何遍历列表并提取

    遍历列表是Python中非常常见的操作之一,可以使用for循环或者while循环来实现。下面我将详细介绍如何使用for循环遍历列表并提取元素。 首先,让我们简单了解一下Python中的列表。列表
    的头像 发表于 11-23 15:55 1376次阅读