文章詳情頁

Python 循環(huán)讀取數據內存不足的解決方案

瀏覽：106日期：2022-06-18 13:11:44

看代碼吧~

import gcfor x in list(locals().keys())[:]: del locals()[x]# del all_s_x, AE, AE_split, x_ticks, splitgc.collect()

補充：Python讀取大文件的'坑“與內存占用檢測

python讀寫文件的api都很簡單，一不留神就容易踩”坑“。筆者記錄一次踩坑歷程，并且給了一些總結，希望到大家在使用python的過程之中，能夠避免一些可能產生隱患的代碼。

1.read()與readlines()：

隨手搜索python讀寫文件的教程，很經?？吹絩ead()與readlines()這對函數。所以我們會常?？吹饺缦麓a：

with open(file_path, ’rb’) as f: sha1Obj.update(f.read())

with open(file_path, ’rb’) as f: for line in f.readlines():print(line)

這對方法在讀取小文件時確實不會產生什么異常，但是一旦讀取大文件，很容易會產生MemoryError，也就是內存溢出的問題。

Why Memory Error？

我們首先來看看這兩個方法：

當默認參數size=-1時，read方法會讀取直到EOF，當文件大小大于可用內存時，自然會發(fā)生內存溢出的錯誤。

Python 循環(huán)讀取數據內存不足的解決方案

同樣的，readlines會構造一個list。list而不是iter，所以所有的內容都會保存在內存之上，同樣也會發(fā)生內存溢出的錯誤。

Python 循環(huán)讀取數據內存不足的解決方案

2.正確的用法：

在實際運行的系統(tǒng)之中如果寫出上述代碼是十分危險的，這種”坑“十分隱蔽。所以接下來我們來了解一下正確用，正確的用法也很簡單，依照API之中對函數的描述來進行對應的編碼就OK了：

如果是二進制文件推薦用如下這種寫法，可以自己指定緩沖區(qū)有多少byte。顯然緩沖區(qū)越大，讀取速度越快。

with open(file_path, ’rb’) as f: while True:buf = f.read(1024)if buf:sha1Obj.update(buf)else: break

而如果是文本文件，則可以用readline方法或直接迭代文件（python這里封裝了一個語法糖，二者的內生邏輯一致，不過顯然迭代文件的寫法更pythonic ）每次讀取一行，效率是比較低的。筆者簡單測試了一下，在3G文件之下，大概性能和前者差了20%.

with open(file_path, ’rb’) as f: while True:line = f.readline()if buf:print(line)else: breakwith open(file_path, ’rb’) as f: for line in f:print(line)3.內存檢測工具的介紹：

對于python代碼的內存占用問題，對于代碼進行內存監(jiān)控十分必要。這里筆者這里推薦兩個小工具來檢測python代碼的內存占用。

memory_profiler

首先先用pip安裝memory_profiler

pip install memory_profiler

memory_profiler是利用python的裝飾器工作的，所以我們需要在進行測試的函數上添加裝飾器。

from hashlib import sha1import sys@profiledef my_func(): sha1Obj = sha1() with open(sys.argv[1], ’rb’) as f:while True: buf = f.read(10 * 1024 * 1024) if buf:sha1Obj.update(buf) else:break print(sha1Obj.hexdigest())if __name__ == ’__main__’: my_func()

之后在運行代碼時加上** -m memory_profiler**

就可以了解函數每一步代碼的內存占用了

Python 循環(huán)讀取數據內存不足的解決方案

guppy

依樣畫葫蘆，仍然是通過pip先安裝guppy

pip install guppy

之后可以在代碼之中利用guppy直接打印出對應各種python類型（list、tuple、dict等）分別創(chuàng)建了多少對象，占用了多少內存。

from guppy import hpyimport sysdef my_func(): mem = hpy() with open(sys.argv[1], ’rb’) as f:while True: buf = f.read(10 * 1024 * 1024) if buf:print(mem.heap()) else:break

如下圖所示，可以看到打印出對應的內存占用數據：

Python 循環(huán)讀取數據內存不足的解決方案

通過上述兩種工具guppy與memory_profiler可以很好地來監(jiān)控python代碼運行時的內存占用問題。

4.小結：

python是一門崇尚簡潔的語言，但是正是因為它的簡潔反而更多了許多需要仔細推敲和思考的細節(jié)。希望大家在日常工作與學習之中也能多對一些細節(jié)進行總結，少踩一些不必要的“坑”。

以上為個人經驗，希望能給大家一個參考，也希望大家多多支持好吧啦網。

Python 編程

上一條：python 辦公自動化——基于pyqt5和openpyxl統(tǒng)計符合要求的名單下一條：python基于機器學習預測股票交易信號

相關文章：

1. ASP.NET MVC限制同一個IP地址單位時間間隔內的請求次數2. XMLDOM對象方法：對象屬性3. 使用IDEA編寫jsp時EL表達式不起作用的問題及解決方法4. jsp實現(xiàn)textarea中的文字保存換行空格存到數據庫的方法5. ASP.NET Identity的基本用法6. 解決ajax的delete、put方法接收不到參數的問題方法7. 原生Ajax之全面了解xhr的概念與使用8. python subprocess pipe 實時輸出日志的操作9. 淺談Python數學建模之整數規(guī)劃10. Python Django搭建網站流程圖解

排行榜

					
					ASP.NET MVC限制同一個IP地址單位時間間隔內的請求次數
XMLDOM對象方法：對象屬性
使用IDEA編寫jsp時EL表達式不起作用的問題及解決方法
jsp實現(xiàn)textarea中的文字保存換行空格存到數據庫的方法
ASP.NET Identity的基本用法
解決ajax的delete、put方法接收不到參數的問題方法
原生Ajax之全面了解xhr的概念與使用
Python Django搭建網站流程圖解
Docker部署ELK7.3.0日志收集服務最佳實踐
淺談Python數學建模之整數規(guī)劃
澄清Java語言接口與繼承的本質