2019 年 7月 6 日随笔档案 - 大魔王阿黎

2019年7月6日

摘要：一：写出数据源 mysql中的数据作为数据源先看看MySQL中的表代码如下：运行结果：写出各种文件格式，.txt .json .csv .... 代码如下：输出为文本格式如下：输出为Json格式如下：输出为CSV格式如下：输出为parquet文件： Parquet是一个列格式而且用于阅读全文

posted @ 2019-07-06 22:03 大魔王阿黎阅读(199) 评论(0) 推荐(0) 编辑

本地eclipse idea 写的Hadoop的API和 spark程序不能访问云服务器中的数据

摘要：外网ip不能访问云服务器中的hdfs：直接在本地电脑eclipse上跑hadoop的API会出现，如下bug：这是因为在hadoop内部是通过内网ip地址访问的。所以你的公网ip地址在这个不起作用！！！修改你云服务器的hdfs-site.xml文件：添加如下：（黄色配置一定要加） <prope 阅读全文

posted @ 2019-07-06 21:43 大魔王阿黎阅读(382) 评论(0) 推荐(0) 编辑

大数据学习之SparkSQL 50

摘要： 1、Spark SQL简介 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL？我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简阅读全文

posted @ 2019-07-06 21:33 大魔王阿黎阅读(204) 评论(0) 推荐(0) 编辑

大数据学习之Spark实现自定义排序 49

摘要： SparkRDD实现自定义排序实现Order接口，原始方法：元组输出部分代码如下：方法一：自定义一个类，实现Ordered自定义的排序代码如下：方法二：模式匹配方式进行排序代码如下：方法三：专门定义一个隐世类来排序建议写成隐式类，应为可以将你需要的隐世装换全写在一个隐式类中，直接导阅读全文

posted @ 2019-07-06 21:20 大魔王阿黎阅读(322) 评论(0) 推荐(0) 编辑

大数据学习之 Spark基本编程案例 48

摘要：案例一：计算网页访问量前三名源数据大致预览：编写Scala代码：运行结果：案例二：求出每个学院访问第一位的网址,分组编写Scala代码：运行结果：案例三：加入自定义分区按照学院分区，相同的学院分为一个结果文件编写Scala代码：运行结果：案例四：Spark访问数据库把分组排阅读全文

posted @ 2019-07-06 21:13 大魔王阿黎阅读(602) 评论(0) 推荐(0) 编辑

大数据学习之Spark的缓存机制及CheakPoint 47

摘要： 1、RDD的缓存机制 RDD通过persist方法或cache方法可以将前面的计算结果缓存，但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。通过查看源码发现cache最终也是调用了persist方法，默认的存储级别都是仅在内存阅读全文

posted @ 2019-07-06 20:56 大魔王阿黎阅读(386) 评论(1) 推荐(0) 编辑

大魔王阿黎

公告