任重而道远的小蜗牛

2019年6月11日

摘要：各组件的简介使用Flume/logstash抽取服务器上的日志数据以及使用sqoop/spark抽取关系型数据库的数据，将数据抽取到HDFS（压缩+普通文本格式）。将hdfs上数据通过（MR/Spark/Flink）清洗出来后存放数仓（hive）将原始的数据放到目标位置（hive的外部表）业阅读全文

posted @ 2019-06-11 17:02 任重而道远的小蜗牛阅读(1112) 评论(0) 推荐(0) 编辑

Flume(一)

摘要： Flume的定义 Flume是一个分布式的、高可靠的、高可用的将大批量的不同数据源的日志数据收集、聚合、移动到数据中心（HDFS）进行存储的系统。即是日志采集和汇总的工具 Logstash、FileBeat是ES栈的日志数据抽取工具，他们和Flume很类似，前者是轻量级、后者是重量级，若项目组使用的阅读全文

posted @ 2019-06-11 15:58 任重而道远的小蜗牛阅读(28963) 评论(1) 推荐(3) 编辑

2019年6月8日

Sparkcore高级应用3

摘要： spark中的shuffle shuffle简介 shuffle是将数据重新分配的过程，它是跨分区的，涉及网络IO传输的，成本很高。他是整个大数据的性能杀手，瓶颈所在，故生产中尽量较少有shuffle动作的产生。 spark shuffle 演进的历史 spark0.8及以前Hash Based 阅读全文

posted @ 2019-06-08 10:43 任重而道远的小蜗牛阅读(284) 评论(0) 推荐(0) 编辑

2019年5月30日

SparkCore高级应用2(Spark on yarn)

摘要： Yarn产生的背景在没有YARN之前，是一个集群一个计算框架。比如：Hadoop一个集群、Spark一个集群、HBase一个集群等，造成各个集群管理复杂，资源的利用率很低；比如：在某个时间段内Hadoop集群忙而Spark集群闲着，反之亦然，各个集群之间不能共享资源造成集群间资源并不能充分利用；阅读全文

posted @ 2019-05-30 15:23 任重而道远的小蜗牛阅读(395) 评论(0) 推荐(0) 编辑

2019年5月27日

Sparkcore高级应用一

摘要： WC案例查看http://hadoop001:4040的web界面查看http://hadoop001:4040的web界面从Job_id 可以看出，一个WC一共有3个job发生，点击第三个job（即Job_id=2），我们可以看到job的DAG导向图从DAG图中可以看出，一共有2个stag 阅读全文

posted @ 2019-05-27 17:45 任重而道远的小蜗牛阅读(281) 评论(0) 推荐(0) 编辑

2019年5月23日

Spark面试

摘要：转载于https://blog.csdn.net/qq_33314107/article/details/80889282 Spark Core面试篇01随着Spark技术在企业中应用越来越广泛，Spark成为大数据开发必须掌握的技能。前期分享了很多关于Spark的学习视频和文章，为了进一步巩固和掌阅读全文

posted @ 2019-05-23 23:35 任重而道远的小蜗牛阅读(911) 评论(0) 推荐(0) 编辑

RDD缓存与RDD序列化缓存的大小对比

摘要： RDD的缓存一般就是用cache和persist，那二者之间有什么关系，又有什么区别呢？关系： persist()内部调用了persist(StorageLevel.MEMORY_ONLY) cache()调用了persist() 区别： persist有一个 StorageLevel 类型的参数阅读全文

posted @ 2019-05-23 23:07 任重而道远的小蜗牛阅读(755) 评论(0) 推荐(0) 编辑

2019年5月21日

Azkaban3.57.0的编译安装以及简单使用

摘要： 1.Azkaban 简介 azkaban是一个开源的任务调度系统，用于负责的调度运行（如数据仓库调度），用以替代Linux中的crontab。 azkaban是一个开源的任务调度系统，用于负责的调度运行（如数据仓库调度），用以替代Linux中的crontab。 Azkaban是一套简单的任务调度服务阅读全文

posted @ 2019-05-21 17:42 任重而道远的小蜗牛阅读(2155) 评论(2) 推荐(0) 编辑

2019年5月20日

常用的Transiformation算子

摘要： <1>map /** * Return a new RDD by applying a function to all elements of this RDD. * 一对一的进行RDD的转换操作，并且产生一个新的RDD储存所有的elements */ def map[U: ClassTag](f: 阅读全文

posted @ 2019-05-20 17:34 任重而道远的小蜗牛阅读(364) 评论(0) 推荐(0) 编辑

2019年5月17日

SparkCore的常用算子

摘要： SparkCore算子简介 SparkCore中的算子可以分为2类：Transformations Operation 和 Action Operation 在Spark的提交过程中，会将RDD及作用于其上的一系列算子（即：RDD及其之间的依赖关系）构建成一个DAG有向无环视图。当遇到action算阅读全文

posted @ 2019-05-17 16:03 任重而道远的小蜗牛阅读(1935) 评论(0) 推荐(0) 编辑

IT界的小十七

公告