上一页 1 2 3 4 5 6 7 8 9 10 ··· 14 下一页
摘要: 各组件的简介 使用Flume/logstash抽取服务器上的日志数据以及使用sqoop/spark抽取关系型数据库的数据,将数据抽取到HDFS(压缩+普通文本格式)。 将hdfs上数据通过(MR/Spark/Flink)清洗出来后存放数仓(hive) 将原始的数据放到目标位置(hive的外部表) 业 阅读全文
posted @ 2019-06-11 17:02 任重而道远的小蜗牛 阅读(1105) 评论(0) 推荐(0) 编辑
摘要: Flume的定义 Flume是一个分布式的、高可靠的、高可用的将大批量的不同数据源的日志数据收集、聚合、移动到数据中心(HDFS)进行存储的系统。即是日志采集和汇总的工具 Logstash、FileBeat是ES栈的日志数据抽取工具,他们和Flume很类似,前者是轻量级、后者是重量级,若项目组使用的 阅读全文
posted @ 2019-06-11 15:58 任重而道远的小蜗牛 阅读(28928) 评论(1) 推荐(3) 编辑
摘要: spark中的shuffle shuffle简介 shuffle是将数据重新分配 的过程,它是跨分区的,涉及网络IO传输的,成本很高。他是整个大数据的性能杀手,瓶颈所在,故生产中尽量较少有shuffle动作的产生。 spark shuffle 演进的历史 spark0.8及以前Hash Based  阅读全文
posted @ 2019-06-08 10:43 任重而道远的小蜗牛 阅读(283) 评论(0) 推荐(0) 编辑
摘要: Yarn产生的背景 在没有YARN之前,是一个集群一个计算框架。比如:Hadoop一个集群、Spark一个集群、HBase一个集群等,造成各个集群管理复杂,资源的利用率很低;比如:在某个时间段内Hadoop集群忙而Spark集群闲着,反之亦然,各个集群之间不能共享资源造成集群间资源并不能充分利用; 阅读全文
posted @ 2019-05-30 15:23 任重而道远的小蜗牛 阅读(395) 评论(0) 推荐(0) 编辑
摘要: WC案例 查看http://hadoop001:4040的web界面 查看http://hadoop001:4040的web界面 从Job_id 可以看出,一个WC一共有3个job发生,点击第三个job(即Job_id=2),我们可以看到job的DAG导向图 从DAG图中可以看出,一共有2个stag 阅读全文
posted @ 2019-05-27 17:45 任重而道远的小蜗牛 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 转载于https://blog.csdn.net/qq_33314107/article/details/80889282 Spark Core面试篇01随着Spark技术在企业中应用越来越广泛,Spark成为大数据开发必须掌握的技能。前期分享了很多关于Spark的学习视频和文章,为了进一步巩固和掌 阅读全文
posted @ 2019-05-23 23:35 任重而道远的小蜗牛 阅读(889) 评论(0) 推荐(0) 编辑
摘要: RDD的缓存一般就是用cache和persist,那二者之间有什么关系,又有什么区别呢? 关系: persist()内部调用了persist(StorageLevel.MEMORY_ONLY) cache()调用了persist() 区别: persist有一个 StorageLevel 类型的参数 阅读全文
posted @ 2019-05-23 23:07 任重而道远的小蜗牛 阅读(748) 评论(0) 推荐(0) 编辑
摘要: 1.Azkaban 简介 azkaban是一个开源的任务调度系统,用于负责的调度运行(如数据仓库调度),用以替代Linux中的crontab。 azkaban是一个开源的任务调度系统,用于负责的调度运行(如数据仓库调度),用以替代Linux中的crontab。 Azkaban是一套简单的任务调度服务 阅读全文
posted @ 2019-05-21 17:42 任重而道远的小蜗牛 阅读(2139) 评论(2) 推荐(0) 编辑
摘要: <1>map /** * Return a new RDD by applying a function to all elements of this RDD. * 一对一的进行RDD的转换操作,并且产生一个新的RDD储存所有的elements */ def map[U: ClassTag](f: 阅读全文
posted @ 2019-05-20 17:34 任重而道远的小蜗牛 阅读(364) 评论(0) 推荐(0) 编辑
摘要: SparkCore算子简介 SparkCore中的算子可以分为2类:Transformations Operation 和 Action Operation 在Spark的提交过程中,会将RDD及作用于其上的一系列算子(即:RDD及其之间的依赖关系)构建成一个DAG有向无环视图。当遇到action算 阅读全文
posted @ 2019-05-17 16:03 任重而道远的小蜗牛 阅读(1928) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 14 下一页