python 解析Hdfs上的数据文件
python想直接读取hadoop上的文件内容,一番操作,头发掉了几根,也没能解析出来parquet文件类型的文件。
本博文简单讲解一下TEXTFILE文件格式的解析:
需要安装模块hdfs
from hdfs.client import Client client = Client("http://bigdata-poc.com:50070") #print(dir(client)) filepath="/user/hive/warehouse/sd.db/test_20191122/20483fa2cdbe722e-bee88ed900000000_920649167_data.0." with client.read(filepath) as fs: content = fs.readline() print(content)
运行结果:
[root@bigdata-poc-shtz-3 json]# python c.py 1zhang
天下难事,必作于易;天下大事,必作于细