pandas读取大文件时memoryerror的解决办法

再用pd.read_csv读取大文件时，如果文件太大，会出现memoryerror的问题。

解决办法一：pd.read_csv的参数中有一个chunksize参数，为其赋值后，返回一个可迭代对象TextFileReader，对其遍历即可

reader = pd.read_csv(file_path, chunksize=20)　　# 每次读取20条数据

 1 import pandas as pd 
 2 
 3 def knn():
 4     # 读取数据
 5     file_path = './facebook/train.csv'
 6     
 7     reader = pd.read_csv(file_path, chunksize=20)    # 每块为20条数据(index)
 8 
 9     for chunk in reader:
10         print(chunk)
11         break
12 
13 if __name__ == '__main__':
14     knn()

代码执行结果如下：

解决办法二：pd.read_csv的参数中有一个iterator参数，默认为False，将其改为True，返回一个可迭代对象TextFileReader，使用它的get_chunk(num)方法可获得前num行的数据

import pandas as pd 

def knn():
    '''完成k近邻算法'''

    # 读取数据
    file_path = './facebook/train.csv'

    reader = pd.read_csv(file_path, iterator=True)
    chunk = reader.get_chunk(5)    # 获取前5行数据
    print(chunk)


if __name__ == '__main__':
    knn()

代码执行结果如下：

posted @ 2018-10-19 17:52 帅帅的飞猪阅读(5111) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

帅帅的飞猪

All things are difficult before they are easy

pandas读取大文件时memoryerror的解决办法

公告