吊车尾88

2021年7月28日

摘要： hadoop fs -count 命令 $ hadoop fs -count -q /user 1024 1021 10240 10132 2 1 108 hdfs://ns1/user 在count后面增加 -q 项可以查看当前文件夹的限额使用情况第一个数值1024，表示总的文件包括文件夹的限额阅读全文

posted @ 2021-07-28 12:17 吊车尾88 阅读(141) 评论(0) 推荐(0)

2020年9月2日

hive UDF 编程

摘要： UDF的定义 UDF（User-Defined Functions）即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求，这时就需要我们自定义函数了 UDF的分类 UDF：one to one，进来一个出去一个，row mapping。是row级别操作，如：upper、substr函阅读全文

posted @ 2020-09-02 15:14 吊车尾88 阅读(589) 评论(0) 推荐(0)

2020年7月29日

Linux Shell 批量重命名的方法

摘要： 1、删除所有的 .bak 后缀：rename 's/\.bak$//' *.bak 2、把 .jpe 文件后缀修改为 .jpg：rename 's/\.jpe$/\.jpg/' *.jpe 3、把所有文件的文件名改为小写：rename 'y/A-Z/a-z/' * 4、将 abcd.jpg 重命名为阅读全文

posted @ 2020-07-29 14:34 吊车尾88 阅读(1339) 评论(0) 推荐(0)

2020年7月8日

Spark SQL : DataFrame repartition、coalesce 对比

摘要： repartition repartition 有三个重载的函数： 1) def repartition(numPartitions: Int): DataFrame /** * Returns a new [[DataFrame]] that has exactly `numPartitions` 阅读全文

posted @ 2020-07-08 11:35 吊车尾88 阅读(1952) 评论(0) 推荐(0)

IDEA一些常用的快捷键

摘要： 1.Ctrl＋E：显示最近编辑的文件列表 2. Ctrl＋F12：显示当前文件的结构 3. Ctrl＋P：显示方法的参数信息 4. Ctrl＋Alt＋T：可以将代码包在一块内，例如try/catch 5. Ctrl＋Alt＋V ：自动创建变量也就是=号前的变量定义 6.Ctrl+H：显示类结构图 7 阅读全文

posted @ 2020-07-08 09:32 吊车尾88 阅读(182) 评论(0) 推荐(0)

2020年4月26日

HBase Shell 命令使用方法

摘要： 1. 交互模式 $ hbase shell 2. 非交互模式 $ echo "describe 'test'" | hbase shell -n$ echo $?# 返回0成功，返回其他失败 # 结果输出到文件 $ echo "describe 'test'" | hbase shell -n > 阅读全文

posted @ 2020-04-26 19:01 吊车尾88 阅读(1675) 评论(0) 推荐(0)

2020年4月22日

Structured Streaming系列——输入与输出

摘要：一、输入数据源 1. 文件输入数据源(FIie) file数据源提供了很多种内置的格式，如csv、parquet、orc、json等等，就以csv为例: import spark.implicits._ val userSchema = new StructType() .add("name", " 阅读全文

posted @ 2020-04-22 18:12 吊车尾88 阅读(2083) 评论(1) 推荐(1)

2020年4月21日

spark写出常见压缩格式设置

摘要： 1. Hadoop之常见压缩格式以及性能对比 1.压缩的好处和坏处好处减少存储磁盘空间降低IO(网络的IO和磁盘的IO) 加快数据在磁盘和网络中的传输速度，从而提高系统的处理速度坏处由于使用数据时，需要先将数据解压，加重CPU负荷。而且压缩的越狠，耗费的时间越多。 2.压缩格式压缩格式阅读全文

posted @ 2020-04-21 19:04 吊车尾88 阅读(9406) 评论(0) 推荐(2)

SparkSQL读写部数据源——csv文件的读写

摘要： 1. sep 和 delimiter的功能都是一样，都是表示csv的切割符，(默认是,)(读写参数) spark.read.option("sep", " ").csv(Seq("jeffy", "katy").toDS()).show() spark.read.option("delimiter" 阅读全文

posted @ 2020-04-21 16:01 吊车尾88 阅读(4181) 评论(0) 推荐(0)

2020年4月16日

sparkSQL中partition by和group by区别及使用

摘要： 1. partition by和group by区别和联系 1）group by是分组函数，partition by是分析函数（然后像sum()等是聚合函数） 2）在执行顺序上partition by应用在以上关键字之后，实际上就是在执行完select之后，在所得结果集之上进行partition，g 阅读全文

posted @ 2020-04-16 11:49 吊车尾88 阅读(7644) 评论(0) 推荐(0)

公告