摘要: 二、merge:通过键拼接列 类似于关系型数据库的连接方式,可以根据一个或多个键将不同的DatFrame连接起来。 该函数的典型应用场景是,针对同一个主键存在两张不同字段的表,根据主键整合到一张表里面。 参数介绍: left和right:两个不同的DataFrame; how:连接方式,有inner 阅读全文
posted @ 2019-02-11 23:56 wqbin 阅读(37100) 评论(0) 推荐(0) 编辑
摘要: 一、concat:沿着一条轴,将多个对象堆叠到一起 objs:需要连接的对象集合,一般是列表或字典; axis:连接轴向; join:参数为‘outer’或‘inner’; join_axes=[]:指定自定义的索引; keys=[]:创建层次化索引; ignore_index=True:重建索引 阅读全文
posted @ 2019-02-11 23:12 wqbin 阅读(4013) 评论(0) 推荐(0) 编辑
摘要: 1. 原始表 数据清洗后的表 3.数据导入 4.脚本编写和脚本加载 然后 hdfs dfs -put 5.数据清洗+转储 然后我就失败了 阅读全文
posted @ 2019-02-11 20:42 wqbin 阅读(1963) 评论(0) 推荐(0) 编辑
摘要: 哎总是忘了做个笔记。 1. beeline -u jdbc:hive2://localhost:10000/big12 2. 第一步:先启动hiveserver2 必须启动 第二步: <property> <name>hive.server2.authentication</name> <value 阅读全文
posted @ 2019-02-11 16:47 wqbin 阅读(1737) 评论(0) 推荐(0) 编辑
摘要: 方法一:使用pyhive库 如上图所示我们需要四个外部包 中间遇到很多报错。我都一一解决了 1.Connection Issue: thrift.transport.TTransport.TTransportException: TSocket read 0 bytes 2.安装sasl 遇到Mic 阅读全文
posted @ 2019-02-11 14:31 wqbin 阅读(4617) 评论(0) 推荐(0) 编辑
摘要: 1.首先打开https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,找到对应版本的Twisted并下载到你的文件夹。此例为Twisted‑17.9.0‑cp36‑cp36m‑win_amd64.whl 2.利用pip install命令安装指定存储路径 阅读全文
posted @ 2019-02-11 12:22 wqbin 阅读(2917) 评论(0) 推荐(0) 编辑
摘要: 在运行hive命令时传入参数,使用-hivevar 和 -hiveconf 两种参数选项,来给此次的执行脚本传入参数 -hivevar : 传参数 ,专门提供给用户自定义变量。 -hiveconf : 传参数,包括了hive-site.xml中配置的hive全局变量。 (1)脚本调用 test.sq 阅读全文
posted @ 2019-02-11 10:34 wqbin 阅读(12666) 评论(0) 推荐(0) 编辑