python 解析Hdfs上的数据文件

python想直接读取hadoop上的文件内容,一番操作,头发掉了几根,也没能解析出来parquet文件类型的文件。

 

本博文简单讲解一下TEXTFILE文件格式的解析:

需要安装模块hdfs

from hdfs.client import Client
client = Client("http://bigdata-poc.com:50070")
#print(dir(client))
filepath="/user/hive/warehouse/sd.db/test_20191122/20483fa2cdbe722e-bee88ed900000000_920649167_data.0."
with client.read(filepath) as fs:    
  content = fs.readline()   
  print(content)    

 

运行结果:

[root@bigdata-poc-shtz-3 json]# python c.py
1zhang

 

 

posted @ 2019-11-22 18:05  醉城、  阅读(3058)  评论(0编辑  收藏  举报