2018年8月9日

摘要: 转自: https://blog.csdn.net/shuhaojie/article/details/74205393 https://blog.csdn.net/shuhaojie/article/details/75123953 本博客是个人在学习Spark过程中的一些总结,方便个人日后查阅, 阅读全文
posted @ 2018-08-09 00:00 李晓春 阅读(719) 评论(0) 推荐(0) 编辑

2018年8月8日

摘要: Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结 Hive on Mapreduce执行流程 执行流程详细解析 S 阅读全文
posted @ 2018-08-08 23:11 李晓春 阅读(64295) 评论(1) 推荐(6) 编辑

2018年8月7日

摘要: Spark分区数、task数目、core数目、worker节点数目、executor数目梳理 spark隐式创建由操作组成的逻辑上的有向无环图。驱动器执行时,它会把这个逻辑图转换为物理执行计划,然后将逻辑计划转换为一系列的步骤(stage),每个步骤由多个任务组成。 步骤组成任务、数据组成任务。所以 阅读全文
posted @ 2018-08-07 15:28 李晓春 阅读(1441) 评论(0) 推荐(3) 编辑
摘要: hadoop的文件系统hdfs是一款非常优秀的分布式文件系统。hdfs为主从架构,主节点叫NameNode,从节点叫DataNode。主节点负责配合journalNode等完成fsimge完整性,从节点负责存储数据。节点之间通信。。。好吧跑题了! hdfs文件是分布式存储,每个文件根据配置被切分成b 阅读全文
posted @ 2018-08-07 10:05 李晓春 阅读(941) 评论(0) 推荐(1) 编辑
摘要: 引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源。 因此,Spark选择记录更新的方式。但是,如果更新粒度太细太 阅读全文
posted @ 2018-08-07 09:59 李晓春 阅读(276) 评论(0) 推荐(0) 编辑

2018年8月6日

摘要: 大数据离线部分 HDFS 1:HDFS的架构部分及工作原理 NameNode:负责管理元素据,将信息保存在内存中 DataNode:保存数据,以块的形式保存。启动后需要定时的向NameNode发送心跳,报告自身存储的块信息 2:HDFS的上传过程 3:HDFS的下载 4:NameNode的元数据安全 阅读全文
posted @ 2018-08-06 16:49 李晓春 阅读(411) 评论(0) 推荐(0) 编辑
摘要: 最令开发者们高兴的事莫过于有一组API,可以大大提高开发者们的工作效率,容易使用、非常直观并且富有表现力。Apache Spark广受开发者们欢迎的一个重要原因也在于它那些非常容易使用的API,可以方便地通过多种语言,如Scala、Java、Python和R等来操作大数据集。 在本文中,我将深入讲讲 阅读全文
posted @ 2018-08-06 16:31 李晓春 阅读(323) 评论(0) 推荐(0) 编辑
摘要: 理解Spark的核心RDD(转) 与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计 阅读全文
posted @ 2018-08-06 16:09 李晓春 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 1. 交互式Spark-Shell 根据前一节已经搭建好的Hadoop和Spark环境,直接通过脚本启动Hadoop和Spark服务。如果 http://localhost:8080 能够访问,说明Spark服务已经启动。Spark为我们提供了PySpark以及Spark-shell,可以方便的通过 阅读全文
posted @ 2018-08-06 15:41 李晓春 阅读(4439) 评论(0) 推荐(0) 编辑
摘要: spark 新特性主要增加DataFrame/DataSet、Structured Streaming和Spark Session 1. DataFrame/DataSet主要替换之前的RDD,主要优势在执行效率、集群间通信、执行优化和GC开销比RDD有优势。 2. Structured Strea 阅读全文
posted @ 2018-08-06 15:00 李晓春 阅读(1902) 评论(0) 推荐(0) 编辑

导航