随笔- 125 文章- 0 评论- 5 阅读- 53424

用dask并行把大量文本数据读入numpy并分批保存

导入包

import numpy as np
import os
import dask

看看文件格式和

file_list = os.listdir('train_data')
print(len(file_list))
print(file_list[:100])

delayed读入并且分批保存

n = 0
result = []
for i in range(len(file_list)):
    y = dask.delayed(np.loadtxt)('train_data/'+file_list[i], delimiter=',')
    result.append(y)
    if (i+1) % 10000 == 0:
        print('saving ... '+str(n))
        result = np.array(result)
        result = dask.compute(*result)
        np.save('data_pack/data_pack_'+str(n), result)
        n+=1
        result = []

if result!= []:
    result = np.array(result)
    result = dask.compute(*result)
    np.save('data_pack/data_pack_'+str(n), result)
    print('saving ... '+str(n))

posted @ 2023-02-27 17:29 裏表異体阅读(86) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· python读取文本文件

· 多进程下载nadc上的数据

· Numpy中数据的常用的保存与读取方法

· Numpy中数据的常用的保存与读取方法

· numpy savez保存与读取

阅读排行：
· 被坑几百块钱后，我竟然真的恢复了删除的微信聊天记录！
· 没有Manus邀请码？试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单，K8s 太复杂？w7panel 让容器管理更轻松！

公告

昵称：裏表異体
园龄： 6年4个月
粉丝： 5
关注： 15

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:编写了一个简单的矩阵类，可以实现矩阵的加减乘运算和求行列式等等
我是循环写入数据的，就是cin >> a[i][j]这种，但是因为重载了+和-，不知道是不是在执行的时候出错，最终使用cout << a[i][j]，的时候就不对，
--shakeyoung
2. Re:编写了一个简单的矩阵类，可以实现矩阵的加减乘运算和求行列式等等
@ shakeyoung用下标访问和cin>>，像这样：cin>>a[1][2]。然后输出是cout<<a[1][2],如果你输出的是地址那可能是你写的是cout<<a或者是cout<<a[0],那样...
--裏表異体
3. Re:编写了一个简单的矩阵类，可以实现矩阵的加减乘运算和求行列式等等
您好，我想请问一下，向动态二维数组中写入数据该怎么处理？？为什么最后打印出来的是他的地址？？
--shakeyoung
4. Re:书上关于*(p++)表达式的几种变形形式的思考题
@ 洛洛沙 >_<|||还真的错了，谢谢你的提醒啦，已经更正过来啦。...
--裏表異体
5. Re:书上关于*(p++)表达式的几种变形形式的思考题
最后一行注释有误，应该是先读取a[6]的值8返回给++,a[6]变成9，再输出9
--洛洛沙