摘要: 一:写出数据源 mysql中的数据作为数据源 先看看MySQL中的表 代码如下: 运行结果: 写出各种文件格式,.txt .json .csv .... 代码如下: 输出为文本格式如下: 输出为Json格式如下: 输出为CSV格式如下: 输出为parquet文件: Parquet是一个列格式而且用于 阅读全文
posted @ 2019-07-06 22:03 大魔王阿黎 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 外网ip不能访问云服务器中的hdfs:直接在本地电脑eclipse上跑hadoop的API会出现, 如下bug:这是因为在hadoop内部是通过内网ip地址访问的。所以你的公网ip地址在这个不起作用!!! 修改你云服务器的hdfs-site.xml文件: 添加如下:(黄色配置一定要加) <prope 阅读全文
posted @ 2019-07-06 21:43 大魔王阿黎 阅读(382) 评论(0) 推荐(0) 编辑
摘要: 1、Spark SQL简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 为什么要学习Spark SQL? 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简 阅读全文
posted @ 2019-07-06 21:33 大魔王阿黎 阅读(204) 评论(0) 推荐(0) 编辑
摘要: SparkRDD实现自定义排序实现Order接口, 原始方法:元组输出 部分代码如下: 方法一:自定义一个类, 实现Ordered自定义的排序 代码如下: 方法二:模式匹配方式进行排序 代码如下: 方法三:专门定义一个隐世类来排序 建议写成隐式类,应为可以将你需要的隐世装换全写在一个隐式类中,直接导 阅读全文
posted @ 2019-07-06 21:20 大魔王阿黎 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 案例一:计算网页访问量前三名 源数据大致预览: 编写Scala代码: 运行结果: 案例二:求出每个学院 访问第一位的网址,分组 编写Scala代码: 运行结果: 案例三:加入自定义分区 按照学院分区,相同的学院分为一个结果文件 编写Scala代码: 运行结果: 案例四:Spark访问数据库 把分组排 阅读全文
posted @ 2019-07-06 21:13 大魔王阿黎 阅读(602) 评论(0) 推荐(0) 编辑
摘要: 1、RDD的缓存机制 RDD通过persist方法或cache方法可以将前面的计算结果缓存,但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD将会被缓存在计算节点的内存中,并供后面重用。 通过查看源码发现cache最终也是调用了persist方法,默认的存储级别都是仅在内存 阅读全文
posted @ 2019-07-06 20:56 大魔王阿黎 阅读(386) 评论(1) 推荐(0) 编辑