python 模块化 处理大文件 tsv csv

编程婴儿又在编程。

 

男朋友又让我给他处理数据,其中一个数据大小有10g以上,我还需要把这个数据和其他数据进行匹配,然后分组统计得到一些数据。

之前简简单单用一下read_csv不能打开这么大的数据,我在寻找办法。

因为要做匹配,所以我本来打算模块化把数据写进来之后,然后再合并起来做。但是总是不行,报错。最后可能要先分组处理完,再合并。因为这个数据里应该有很多不用的数据,还是有希望。

中间看到有人说可以用dask包处理很大的文件,很轻松。我看了一下,我觉得就算我读入了,我后面很难操作,我还没到能很快学会一个新包的程度。我还是先好好把pandas用好吧。哭了。

 

想和男朋友讨论一下,怎么弄这个事,他说他不管过程,只要结果。我就是想和他说一说,然后把自己的思路梳理清楚,他都不听。他说他老师和他交代这些事,也从来不管过程,给他结果就好了。

怎么这样,我一直觉得我和他的学术地位是平行的,我们是合作关系,现在他都骑到我头上了。缺骂。

1.打开tsv文件

tsv文件其实就是用tab做分隔符的文件

uspatentcitation=pd.read_csv('F:/1/uspatentcitation.tsv', sep='\t', nrows=2,usecols=['patent_id', 'citation_id', 'date'])

 和csv唯一的区别就是sep参数

nrows=2 #就是打开前两行看一下,我想知道这个数据里有什么指标,是否有一些指标不需要。
usecols=['patent_id', 'citation_id', 'date']  #只取其中三列看看

参考:https://blog.csdn.net/shuihupo/article/details/85283240#pandas%E5%8F%82%E6%95%B0%E8%AF%B4%E6%98%8E

2.看看文件有多少行

我已经试了一些方法,都不能打开这个大文件,我决定先看一眼这个文件有多少行。对后面模块化处理文件心里有个数。

with open('F:/1/uspatentcitation.tsv', 'rb') as f:
    print(len(f.readlines()))

‘rb’是因为之前用‘r’出现以下编码错误:“UnicodeDecodeError: 'gbk' codec can't decode byte 0xb2 in position 6311: illegal multibyte sequence”

但是没想到这个数据这么顽劣,想看看有多少行都不行,给我报‘MemoryError’

烦死人。

 

换了个办法,没想到看看有多少行,也得模块。

path1 = 'F:/1/uspatentcitation.tsv'
file1 = open(path1)
uspatentcitation = pd.read_csv(path1, sep='\t',usecols=['patent_id', 'citation_id', 'date'], iterator=True)
count = 0
loop = True
while loop:
    try:
        user = uspatentcitation.get_chunk(100000)
        count += user.shape[0]
    except StopIteration:
        break
print(count)

 

结果:108913836 

一亿条数据,无语。

不干了,明天再说吧。

 

3.决定模块化匹配,并统计

 

posted @ 2020-06-22 23:27  haolemao  阅读(1264)  评论(0编辑  收藏  举报