上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 38 下一页
摘要: 安装基本的开发环境从spark官网下载spark,如spark-2.3.0-bin-hadoop2.7.tgz,解压并配置环境变量:增加SPARK_HOMEPATH中加入%SPARK_HOME%\bin下载对应版本Scala,若不是安装版解压后需要配置环境变... 阅读全文
posted @ 2019-01-04 17:24 xuejianbest 阅读(222) 评论(0) 推荐(0) 编辑
摘要: 修改hive表名:ALTER TABLE old_name RENAME TO new_name;spark:spark.sql("ALTER TABLE old_name RENAME TO new_name") 阅读全文
posted @ 2019-01-03 16:20 xuejianbest 阅读(18115) 评论(0) 推荐(2) 编辑
摘要: spark中Dataset的的saveAsTable方法可以把数据持久化到hive中,其默认是用parquet格式保存数据文件的,若是想让其保存为其他格式,可以用format方法配置。如若想保存的数据文件格式为hive默认的纯文本文件:df.write.mo... 阅读全文
posted @ 2019-01-03 16:19 xuejianbest 阅读(2084) 评论(0) 推荐(0) 编辑
摘要: UNIX时间戳概念从格林尼治时间1970-01-01 00:00:00开始,到现在经过的秒数。时间戳是一个32位的整数(所以UNIX时间戳最多表示到2037年左右)。因为UNIX时间戳只是一个秒数,一个UNIX时间戳在不同时区看来,时间是不同的。如UNIX时... 阅读全文
posted @ 2019-01-03 16:15 xuejianbest 阅读(1521) 评论(0) 推荐(0) 编辑
摘要: 新建hive表:CREATE TABLE `test`( `a` timestamp, `b` struct) --下面可选 [row format delimited fields terminated by '\t'] [STORED AS P... 阅读全文
posted @ 2019-01-03 16:12 xuejianbest 阅读(2121) 评论(0) 推荐(0) 编辑
摘要: 存储表的时候,由以下几点要注意:写入hive表前用coalesce方法对原始数据进行重新分区。因为读取的数据一般是纯文本,写入hive中的默认是用snappy压缩过的parquet(.snappy.parquet),所以分区数如果保持原来的话可能会造成每个.... 阅读全文
posted @ 2019-01-03 16:07 xuejianbest 阅读(1010) 评论(0) 推荐(0) 编辑
摘要: hive本身提供了thrift协议对外提供服务的功能。如果某台机器已经配置好了hive,然后运行以下命令打开thrift,提供对外服务(打开后这台机器就为hive服务器):hive --service metastore & 远程机器想要使用hive,可以... 阅读全文
posted @ 2019-01-03 16:04 xuejianbest 阅读(2322) 评论(0) 推荐(0) 编辑
摘要: 若hive库中有数据存在,直接删除会报错。若想强制删除非空库使用cascade关键字:drop database tmp cascade; 阅读全文
posted @ 2019-01-03 16:03 xuejianbest 阅读(3775) 评论(0) 推荐(0) 编辑
摘要: setrep指定拷贝份数,如果是目录,要递归修改用-R参数:hadoop fs -setrep 1 \ /data/abc/text1.csv \ /data/abc/text2.csv \ /data/abc/text3.csv ... 阅读全文
posted @ 2019-01-03 15:27 xuejianbest 阅读(271) 评论(0) 推荐(0) 编辑
摘要: hdfs上的文件的最小存储单位是块(block),一个块的大小可以指定,一般默认块的大小为64MB或128MB。文件块的数量影响了spark读取hdfs文件生成的RDD的partition数量。另外hdfs上文件是有多份拷贝的(具体几份可以配置)。若一个Da... 阅读全文
posted @ 2019-01-03 15:27 xuejianbest 阅读(1024) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 38 下一页