智能先行者

2016年11月28日

摘要： val dfList = List(("Hadoop", "Java,SQL,Hive,HBase,MySQL"), ("Spark", "Scala,SQL,DataSet,MLlib,GraphX")) dfList: List[(String, String)] = List((Hadoop,Java,SQL,Hive,HBase,MySQL), (Spark,Scala,SQL,Data... 阅读全文

posted @ 2016-11-28 19:05 智能先行者阅读(6692) 评论(0) 推荐(1) 编辑

2016年11月25日

Spark2 Dataset分析函数--排名函数row_number,rank,dense_rank,percent_rank

摘要： row_number,rank,dense_rank,percent_rank 阅读全文

posted @ 2016-11-25 18:34 智能先行者阅读(8015) 评论(0) 推荐(0) 编辑

Spark2 Dataset多维度统计cube与rollup

摘要： val df6 = spark.sql("select gender,children,max(age),avg(age),count(age) from Affairs group by Cube(gender,children) order by 1,2") df6.show +------+--------+--------+--------+----------+ ... 阅读全文

posted @ 2016-11-25 18:23 智能先行者阅读(3315) 评论(1) 推荐(0) 编辑

Spark2 Dataset统计指标：mean均值，variance方差，stddev标准差，corr(Pearson相关系数)，skewness偏度，kurtosis峰度

摘要： mean均值，variance方差，stddev标准差，corr(Pearson相关系数)，skewness偏度，kurtosis峰度阅读全文

posted @ 2016-11-25 17:55 智能先行者阅读(9241) 评论(0) 推荐(0) 编辑

Spark2 Dataset之collect_set与collect_list

摘要： collect_set去除重复元素；collect_list不去除重复元素select gender, concat_ws(',', collect_set(children)), concat_ws(',', collect_list(children)) from Affairs group b 阅读全文

posted @ 2016-11-25 17:19 智能先行者阅读(14400) 评论(0) 推荐(2) 编辑

Spark2 Dataset之视图与SQL

摘要：视图，SQL 阅读全文

posted @ 2016-11-25 17:01 智能先行者阅读(2551) 评论(0) 推荐(0) 编辑

Spark2 Dataset聚合操作

摘要： data.groupBy("gender").agg(count($"age"),max($"age").as("maxAge"), avg($"age").as("avgAge")).show +------+----------+------+------+ |gender|count(age)|m... 阅读全文

posted @ 2016-11-25 16:56 智能先行者阅读(4608) 评论(0) 推荐(0) 编辑

Spark2 Dataset去重、差集、交集

摘要： DataFrame，数据框，去重，差集，交集阅读全文

posted @ 2016-11-25 16:20 智能先行者阅读(16096) 评论(0) 推荐(0) 编辑

Spark2 Dataset持久化存储级别StorageLevel

摘要：持久化，存储级别，StorageLevel 阅读全文

posted @ 2016-11-25 15:40 智能先行者阅读(9455) 评论(0) 推荐(1) 编辑

Spark2 Dataset行列操作和执行计划

摘要： DataFrame，数据框，行操作，列操作，物理执行计划，逻辑执行计划阅读全文

posted @ 2016-11-25 14:21 智能先行者阅读(16730) 评论(0) 推荐(0) 编辑

公告