Parquet
import os import numpy as np import pandas as pd import string, random def random_string(n: int): return ''.join(random.choices(string.ascii_letters, weights=(1,) * len(string.ascii_letters), k=n)) rows = 3 # df = pd.DataFrame(np.array([range(5), range(5)])) for i in range(4): data = {'id': range(rows), 'name': (random_string(5) for _ in range(rows)), 'age': (random.randrange(10, 99) for _ in range(rows)), 'score': (round(random.uniform(0, 100), 2) for _ in range(rows)), 'group': i} # df = pd.DataFrame(data=data, index=range(rows)) df = pd.DataFrame(data=data, index=tuple(''.join(chr(o) for o in range(ord('a'), ord('a') + rows)))) print(df) df.to_parquet(path=f'mock-id-name-age-score-{i}.parquet', engine='pyarrow', compression='snappy', index=True) os.system(f'hadoop fs -rm -f /user/b_aip/zliu3/parquets/mock-id-name-age-score-{i}.parquet') os.system(f'hadoop fs -moveFromLocal mock-id-name-age-score-{i}.parquet /user/b_aip/zliu3/parquets')
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
2020-09-23 利用路由表设置多网卡默认路由
2020-09-23 Linux中文件名存在'-'的处理
2020-09-23 Linux 随机数生成
2020-09-23 wireshark常用过滤条件