2019 年 7月随笔档案 - hdc520

spark大数据快速分析第二章

摘要：1、驱动程序通过一个SparkContext对象来访问Spark，此对象代表对计算集群的一个连接。shell已经自动创建了一个SparkContext对象。利用SparkContext对象来创建一个RDD 2、spark和mapreduce区别 mapreduce分为两个阶段map和reduce，两阅读全文

posted @ 2019-07-25 19:09 hdc520 阅读(313) 评论(0) 推荐(0) 编辑

spark的知识的链接

摘要：IDEA 创建scala spark的Mvn项目：https://blog.csdn.net/u014646662/article/details/84618032 Spark详解03Job 物理执行图：https://www.jianshu.com/p/c1ee13c50b7a Spark Sta 阅读全文

posted @ 2019-07-25 10:05 hdc520 阅读(182) 评论(0) 推荐(0) 编辑

mapreduce图解系列

摘要：1、Hadoop的hdfs https://www.cnblogs.com/jstarseven/p/7682293.html 2、Hadoop的yarn https://segmentfault.com/a/1190000018775822?utm_source=tag-newest 3、Hado 阅读全文

posted @ 2019-07-12 11:10 hdc520 阅读(366) 评论(0) 推荐(0) 编辑

spark数据分析导论

摘要：1、spark的定义 spark是一个用来实现快速而通用的集群计算平台，高效的支持更多计算模式，包括交互式查询和流处理。主要特点就是能够在内存中进行计算，即使在磁盘上进行计算依然比mapreduce更加高效。 2、spark的软件栈（1）Spark Core实现Spark的基本功能，包括任务调度阅读全文

posted @ 2019-07-12 11:04 hdc520 阅读(231) 评论(0) 推荐(0) 编辑

hive之调优

摘要：1、简单的查询，就是只是select，不带count,sum,group by这样的，都不走map/reduce，直接读取hdfs文件进行filter过滤，即尽量让fetch task(当开启一个Fetch Task功能，就执行一个简单的查询语句不会生成MapRreduce作业，而是直接使用Fetc 阅读全文

posted @ 2019-07-11 16:51 hdc520 阅读(210) 评论(0) 推荐(0) 编辑

Java中的String、StringBuffer、StringBuilder区别以及string的不变性

摘要：1、String、StringBuffer、StringBuilder的区别 String是Java中基础类型，是immutable类（不可变）的典型实现，利用string进行拼接是会产生过多无用对象。 StringBuffer就是为解决大量拼接字符串时产生很多中间对象问题而提供的一个类，提供app 阅读全文

posted @ 2019-07-10 22:14 hdc520 阅读(436) 评论(0) 推荐(0) 编辑

hive之窗口函数

摘要：1、窗口函数种类： over()：新建一个字段，指定分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变而变化。 current row：当前行。 n preceding：往前n行。 n following：往后n行 unbounded：起点。 unbounded preceding：第一行阅读全文

posted @ 2019-07-05 11:22 hdc520 阅读(441) 评论(0) 推荐(0) 编辑

hive中的列转行和行转列

摘要：1、列转行 1.1 相关函数的说明： concat(string1,string,...) //连接括号内字符串，数量不限。 concat_ws(separator,string1,string2,...) //连接括号内字符串，数量不限，连接符为separator。 collect_set(col 阅读全文

posted @ 2019-07-04 16:19 hdc520 阅读(11864) 评论(0) 推荐(0) 编辑

hive之视图和索引

摘要：一、视图 1、视图定义视图其实是一个虚表，视图可以允许保存一个查询，并像对待表一样对这个查询进行操作，视图是一个逻辑结构，并不会存储数据。 2、视图的创建通过创建视图来限制数据访问可以用来保护信息不被随意查询。 create table userinfo（ id int，name string，阅读全文

posted @ 2019-07-03 19:41 hdc520 阅读(1036) 评论(0) 推荐(0) 编辑

hive中Sort By，Order By，Cluster By，Distribute By，Group By的区别

摘要：order by： hive中的order by 和传统sql中的order by 一样，对数据做全局排序，加上排序，会新启动一个job进行排序，会把所有数据放到同一个reduce中进行处理，不管数据多少，不管文件多少，都启用一个reduce进行处理。如果指定了hive.mapred.mode=st 阅读全文

posted @ 2019-07-02 17:06 hdc520 阅读(5244) 评论(0) 推荐(2) 编辑

hdc520

07 2019 档案