2017 年 3月 7 日随笔档案 - 邬家栋

2017年3月7日

摘要：日志分析问题：如何将p(4)里面的继续切分阅读全文

posted @ 2017-03-07 20:27 邬家栋阅读(1452) 评论(0) 推荐(0) 编辑

摘要： spark SQL初步认识 spark SQL是spark的一个模块，主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是DataFrame。 DataFrame：它可以根据很多源进行构建，包括：结构化的数据文件，hive中的表，外部的关系型数据库，以及RDD 创建DataFrame 数据文件阅读全文

posted @ 2017-03-07 20:22 邬家栋阅读(14108) 评论(0) 推荐(0) 编辑

spark SQL学习（案例-统计每日销售）

摘要：需求：统计每日销售额运行结果阅读全文

posted @ 2017-03-07 20:19 邬家栋阅读(1827) 评论(0) 推荐(0) 编辑

spark SQL学习（案例-统计每日uv）

摘要：需求：统计每日uv 运行结果阅读全文

posted @ 2017-03-07 20:18 邬家栋阅读(2383) 评论(0) 推荐(0) 编辑

spark SQL学习（spark连接 mysql）

摘要： spark连接mysql（打jar包方式）提交集群运行结果常见报错1 如果添加了命令和jar运行也不行,则用以下办法常见报错2 spark连接mysql（spark shell方式）方式1 方式2 方式3 阅读全文

posted @ 2017-03-07 20:15 邬家栋阅读(22492) 评论(0) 推荐(1) 编辑

spark SQL学习（spark连接hive）

摘要： spark 读取hive中的数据 spark载入数据到hive 两个文件 scala代码参考资料 http://dblab.xmu.edu.cn/blog/1086 2/ 参考资料 http://blog.csdn.net/ggz631047367/article/details/50445877 阅读全文

posted @ 2017-03-07 20:14 邬家栋阅读(11183) 评论(0) 推荐(0) 编辑

spark SQL学习（数据源之json）

摘要：准备工作数据文件students.json 存放目录：hdfs://master:9000/student/2016113012/spark/students.json scala代码 package wujiadong_sparkSQL import org.apache.spark.sql.S 阅读全文

posted @ 2017-03-07 20:12 邬家栋阅读(3443) 评论(0) 推荐(0) 编辑

spark SQL学习（数据源之parquet）

摘要： Parquet是面向分析型业务得列式存储格式编程方式加载数据代码示例 ` 运行结果自动分区合并元数据 1）读取parquet文件时，将数据源的选项mergeSchema，设置为true 2）使用SQLContext.setConf()方法，将spark.sql.parquet.mergeSc 阅读全文

posted @ 2017-03-07 20:11 邬家栋阅读(943) 评论(0) 推荐(0) 编辑

spark SQL学习（load和save操作）

摘要： load操作：主要用于加载数据，创建出DataFrame save操作：主要用于将DataFrame中的数据保存到文件中代码示例(默认为parquet数据源类型) 提交集群运行运行后查看是否保存成功手动指定数据源类型（进行格式转换很方便）默认情况下不指定数据源类型的话就是parquet类型阅读全文

posted @ 2017-03-07 20:08 邬家栋阅读(2434) 评论(0) 推荐(0) 编辑