文章詳情頁

基于Python快速處理PDF表格數(shù)據(jù)

瀏覽：84日期：2022-07-23 10:50:35

我們有下面一張PDF格式存儲的表格，現(xiàn)在需要使用Python將它提取出來。

使用Python提取表格數(shù)據(jù)需要使用pdfplumber模塊，打開CMD，安裝代碼如下：

pip install pdfplumber

安裝完之后，將需要使用的模塊導入

import pdfplumberimport pandas as pd

然后打開PDF文件

# 使用with語句打開pdf文件with pdfplumber.open('D:pythoncaiyq.pdf') as pdf: # pages[0]表示取第1頁 page = pdf.pages[0]

我們來打印輸出下獲取到的文本，這句語句只是幫我們驗證下是否成功獲取到PDF里的內容

print(page.extract_text())

執(zhí)行的結果如下，看來是成功了

基于Python快速處理PDF表格數(shù)據(jù)

然后可以使用extract_table()函數(shù)獲取表格，如果有多個表格，可以使用extract_tables()函數(shù)，就是多了個s

d1=page.extract_table()

執(zhí)行代碼后，將得到一個列表，還不是數(shù)據(jù)框

基于Python快速處理PDF表格數(shù)據(jù)

所以最后一步就是將列表轉為數(shù)據(jù)框就可以了，代碼如下：

df = pd.DataFrame(d1[1:], columns=d1[0])

執(zhí)行代碼后，將得到了df數(shù)據(jù)框

基于Python快速處理PDF表格數(shù)據(jù)

有幾個注意事項要提醒下：

1.pdf表格中的數(shù)據(jù)，對于同一個數(shù)據(jù)或內容，不要有換行，如果換行，可能被識別為2個數(shù)據(jù)；

2.pdf中的表格一定要有邊框，沒有邊框的話，否則使用extract_table()函數(shù)就無法獲取表格數(shù)據(jù)，extract_text()還是可以獲取文本信息的，不要問我是怎么知道的，說多了都是淚。

我們現(xiàn)在有一份PDF數(shù)據(jù)，里面有三頁，每頁都有一樣數(shù)據(jù)結構但數(shù)據(jù)不同的數(shù)據(jù)表，現(xiàn)在需要使用Python將它批量提取出來。

基于Python快速處理PDF表格數(shù)據(jù)

有了上回經(jīng)驗，我們就直接上代碼：

import pdfplumberimport pandas as pd # 創(chuàng)建一個空數(shù)據(jù)框df = pd.DataFrame() # 使用with語句打開pdf文件with pdfplumber.open('D:pythoncai5.pdf') as pdf: # 使用for循環(huán)遍歷每個pages for page in pdf.pages: # 取出當前頁表格，結果為列表 d=page.extract_table() # 將列表轉為數(shù)據(jù)框 df1 = pd.DataFrame(d[1:], columns=d[0]) #添加至df數(shù)據(jù)框中 df = df.append(df1)

執(zhí)行代碼后，將得到了df數(shù)據(jù)框

基于Python快速處理PDF表格數(shù)據(jù)

是不是so easy 呢？

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網(wǎng)。

Python 編程

上一條：Python ADF 單位根檢驗如何查看結果的實現(xiàn)下一條：使用python實現(xiàn)時間序列白噪聲檢驗方式

相關文章：

1. JSP的Cookie在登錄中的使用2. PHP循環(huán)與分支知識點梳理3. 使用XSL將XML文檔中的CDATA注釋輸出為HTML文本4. 低版本IE正常運行HTML5+CSS3網(wǎng)站的3種解決方案5. 告別AJAX實現(xiàn)無刷新提交表單6. .NET Core中使用gRPC的方法7. 使用HttpClient增刪改查ASP.NET Web API服務8. 小技巧處理div內容溢出9. ASP常用日期格式化函數(shù) FormatDate()10. 輕松學習XML教程

排行榜

					
					低版本IE正常運行HTML5+CSS3網(wǎng)站的3種解決方案
axios和ajax的區(qū)別點總結
Android PC端用ADB抓取指定應用日志實現(xiàn)步驟
JavaScript 模塊化開發(fā)實例詳解【seajs、requirejs庫使用】
idea設置自動導入依賴的方法步驟
Spring Cloud Feign 自定義配置(重試、攔截與錯誤碼處理) 代碼實踐
IntelliJ IDEA2021.2.3破解，IDEA 2021.2.x激活破解，2022激活持續(xù)更新
基于idea把maven工程轉換為web項目
Java httpClient介紹以及使用示例
Android開發(fā)實現(xiàn)TextView超鏈接5種方式源碼實例
Sequoia 2.5 發(fā)布－JDBC集群