Parquet

 

复制代码
import os

import numpy as np
import pandas as pd
import string, random


def random_string(n: int):
    return ''.join(random.choices(string.ascii_letters, weights=(1,) * len(string.ascii_letters), k=n))


rows = 3

# df = pd.DataFrame(np.array([range(5), range(5)]))


for i in range(4):
    data = {'id': range(rows), 'name': (random_string(5) for _ in range(rows)), 'age': (random.randrange(10, 99) for _ in range(rows)),
            'score': (round(random.uniform(0, 100), 2) for _ in range(rows)), 'group': i}
    # df = pd.DataFrame(data=data, index=range(rows))
    df = pd.DataFrame(data=data, index=tuple(''.join(chr(o) for o in range(ord('a'), ord('a') + rows))))
    print(df)

    df.to_parquet(path=f'mock-id-name-age-score-{i}.parquet', engine='pyarrow', compression='snappy', index=True)
    os.system(f'hadoop fs -rm -f /user/b_aip/zliu3/parquets/mock-id-name-age-score-{i}.parquet')
    os.system(f'hadoop fs -moveFromLocal mock-id-name-age-score-{i}.parquet /user/b_aip/zliu3/parquets')
复制代码

 

posted @   ascertain  阅读(79)  评论(0编辑  收藏  举报
相关博文:
·  python
·  random
·  random库
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
历史上的今天:
2020-09-23 利用路由表设置多网卡默认路由
2020-09-23 Linux中文件名存在'-'的处理
2020-09-23 Linux 随机数生成
2020-09-23 wireshark常用过滤条件
点击右上角即可分享
微信分享提示