2025.1.13(周一)

选择Python学习大数据,因为它简单易学,并且有强大的数据分析库。最初的问题是,如何处理大型数据集,尤其是那些不能直接加载到内存中的数据。常见的处理方式是使用“批处理”,这时可以利用PandasDask等工具进行内存外计算。

复制代码
import pandas as pd

# 使用chunk_size逐块加载大型CSV文件
chunk_size = 100000  # 每次读取10万行
chunks = pd.read_csv('large_data.csv', chunksize=chunk_size)

# 处理每个数据块
for chunk in chunks:
    print(chunk.head())  # 打印每块的前5行数据
复制代码

 

posted @   记得关月亮  阅读(3)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 一文读懂知识蒸馏
· 终于写完轮子一部分:tcp代理 了,记录一下
点击右上角即可分享
微信分享提示