xuejianbest

摘要：安装基本的开发环境从spark官网下载spark，如spark-2.3.0-bin-hadoop2.7.tgz，解压并配置环境变量：增加SPARK_HOMEPATH中加入%SPARK_HOME%\bin下载对应版本Scala，若不是安装版解压后需要配置环境变... 阅读全文

posted @ 2019-01-04 17:24 xuejianbest 阅读(222) 评论(0) 推荐(0) 编辑

摘要：修改hive表名：ALTER TABLE old_name RENAME TO new_name;spark:spark.sql("ALTER TABLE old_name RENAME TO new_name") 阅读全文

posted @ 2019-01-03 16:20 xuejianbest 阅读(18115) 评论(0) 推荐(2) 编辑

摘要： spark中Dataset的的saveAsTable方法可以把数据持久化到hive中，其默认是用parquet格式保存数据文件的，若是想让其保存为其他格式，可以用format方法配置。如若想保存的数据文件格式为hive默认的纯文本文件：df.write.mo... 阅读全文

posted @ 2019-01-03 16:19 xuejianbest 阅读(2084) 评论(0) 推荐(0) 编辑

摘要： UNIX时间戳概念从格林尼治时间1970-01-01 00:00:00开始，到现在经过的秒数。时间戳是一个32位的整数（所以UNIX时间戳最多表示到2037年左右）。因为UNIX时间戳只是一个秒数，一个UNIX时间戳在不同时区看来，时间是不同的。如UNIX时... 阅读全文

posted @ 2019-01-03 16:15 xuejianbest 阅读(1521) 评论(0) 推荐(0) 编辑

摘要：新建hive表：CREATE TABLE `test`( `a` timestamp, `b` struct) --下面可选 [row format delimited fields terminated by '\t'] [STORED AS P... 阅读全文

posted @ 2019-01-03 16:12 xuejianbest 阅读(2121) 评论(0) 推荐(0) 编辑

摘要：存储表的时候，由以下几点要注意：写入hive表前用coalesce方法对原始数据进行重新分区。因为读取的数据一般是纯文本，写入hive中的默认是用snappy压缩过的parquet（.snappy.parquet），所以分区数如果保持原来的话可能会造成每个.... 阅读全文

posted @ 2019-01-03 16:07 xuejianbest 阅读(1010) 评论(0) 推荐(0) 编辑

摘要： hive本身提供了thrift协议对外提供服务的功能。如果某台机器已经配置好了hive，然后运行以下命令打开thrift，提供对外服务（打开后这台机器就为hive服务器）：hive --service metastore & 远程机器想要使用hive，可以... 阅读全文

posted @ 2019-01-03 16:04 xuejianbest 阅读(2322) 评论(0) 推荐(0) 编辑

摘要：若hive库中有数据存在，直接删除会报错。若想强制删除非空库使用cascade关键字：drop database tmp cascade; 阅读全文

posted @ 2019-01-03 16:03 xuejianbest 阅读(3775) 评论(0) 推荐(0) 编辑

摘要： setrep指定拷贝份数，如果是目录，要递归修改用-R参数：hadoop fs -setrep 1 \ /data/abc/text1.csv \ /data/abc/text2.csv \ /data/abc/text3.csv ... 阅读全文

posted @ 2019-01-03 15:27 xuejianbest 阅读(271) 评论(0) 推荐(0) 编辑

摘要： hdfs上的文件的最小存储单位是块（block），一个块的大小可以指定，一般默认块的大小为64MB或128MB。文件块的数量影响了spark读取hdfs文件生成的RDD的partition数量。另外hdfs上文件是有多份拷贝的（具体几份可以配置）。若一个Da... 阅读全文

posted @ 2019-01-03 15:27 xuejianbest 阅读(1024) 评论(0) 推荐(0) 编辑