摘要: hadoop fs -count 命令 $ hadoop fs -count -q /user 1024 1021 10240 10132 2 1 108 hdfs://ns1/user 在count后面增加 -q 项可以查看当前文件夹的限额使用情况 第一个数值1024,表示总的文件包括文件夹的限额 阅读全文
posted @ 2021-07-28 12:17 吊车尾88 阅读(115) 评论(0) 推荐(0) 编辑
摘要: UDF的定义 UDF(User-Defined Functions)即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求,这时就需要我们自定义函数了 UDF的分类 UDF:one to one,进来一个出去一个,row mapping。是row级别操作,如:upper、substr函 阅读全文
posted @ 2020-09-02 15:14 吊车尾88 阅读(512) 评论(0) 推荐(0) 编辑
摘要: 1、删除所有的 .bak 后缀:rename 's/\.bak$//' *.bak 2、把 .jpe 文件后缀修改为 .jpg:rename 's/\.jpe$/\.jpg/' *.jpe 3、把所有文件的文件名改为小写:rename 'y/A-Z/a-z/' * 4、将 abcd.jpg 重命名为 阅读全文
posted @ 2020-07-29 14:34 吊车尾88 阅读(1184) 评论(0) 推荐(0) 编辑
摘要: repartition repartition 有三个重载的函数: 1) def repartition(numPartitions: Int): DataFrame /** * Returns a new [[DataFrame]] that has exactly `numPartitions` 阅读全文
posted @ 2020-07-08 11:35 吊车尾88 阅读(1881) 评论(0) 推荐(0) 编辑
摘要: 1.Ctrl+E:显示最近编辑的文件列表 2. Ctrl+F12:显示当前文件的结构 3. Ctrl+P:显示方法的参数信息 4. Ctrl+Alt+T:可以将代码包在一块内,例如try/catch 5. Ctrl+Alt+V :自动创建变量也就是=号前的变量定义 6.Ctrl+H:显示类结构图 7 阅读全文
posted @ 2020-07-08 09:32 吊车尾88 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 1. 交互模式 $ hbase shell 2. 非交互模式 $ echo "describe 'test'" | hbase shell -n$ echo $?# 返回0成功,返回其他失败 # 结果输出到文件 $ echo "describe 'test'" | hbase shell -n > 阅读全文
posted @ 2020-04-26 19:01 吊车尾88 阅读(1584) 评论(0) 推荐(0) 编辑
摘要: 一、输入数据源 1. 文件输入数据源(FIie) file数据源提供了很多种内置的格式,如csv、parquet、orc、json等等,就以csv为例: import spark.implicits._ val userSchema = new StructType() .add("name", " 阅读全文
posted @ 2020-04-22 18:12 吊车尾88 阅读(1938) 评论(1) 推荐(1) 编辑
摘要: 1. Hadoop之常见压缩格式以及性能对比 1.压缩的好处和坏处 好处 减少存储磁盘空间 降低IO(网络的IO和磁盘的IO) 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度 坏处 由于使用数据时,需要先将数据解压,加重CPU负荷。而且压缩的越狠,耗费的时间越多。 2.压缩格式 压缩格式 阅读全文
posted @ 2020-04-21 19:04 吊车尾88 阅读(9054) 评论(0) 推荐(2) 编辑
摘要: 1. sep 和 delimiter的功能都是一样,都是表示csv的切割符,(默认是,)(读写参数) spark.read.option("sep", " ").csv(Seq("jeffy", "katy").toDS()).show() spark.read.option("delimiter" 阅读全文
posted @ 2020-04-21 16:01 吊车尾88 阅读(4030) 评论(0) 推荐(0) 编辑
摘要: 1. partition by和group by区别和联系 1)group by是分组函数,partition by是分析函数(然后像sum()等是聚合函数) 2)在执行顺序上partition by应用在以上关键字之后,实际上就是在执行完select之后,在所得结果集之上进行partition,g 阅读全文
posted @ 2020-04-16 11:49 吊车尾88 阅读(7405) 评论(0) 推荐(0) 编辑