李晓春

Spark重点难点知识总结

摘要：转自： https://blog.csdn.net/shuhaojie/article/details/74205393 https://blog.csdn.net/shuhaojie/article/details/75123953 本博客是个人在学习Spark过程中的一些总结，方便个人日后查阅，阅读全文

posted @ 2018-08-09 00:00 李晓春阅读(742) 评论(0) 推荐(0)

Hive，Hive on Spark和SparkSQL区别

摘要： Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive：hive介绍，实际的一些操作可以看这篇笔记：新手的Hive指南，至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结 Hive on Mapreduce执行流程执行流程详细解析 S 阅读全文

posted @ 2018-08-08 23:11 李晓春阅读(64398) 评论(1) 推荐(6)

Spark分区数、task数目、core数目、worker节点数目、executor数目梳理

摘要： Spark分区数、task数目、core数目、worker节点数目、executor数目梳理 spark隐式创建由操作组成的逻辑上的有向无环图。驱动器执行时，它会把这个逻辑图转换为物理执行计划，然后将逻辑计划转换为一系列的步骤（stage），每个步骤由多个任务组成。步骤组成任务、数据组成任务。所以阅读全文

posted @ 2018-08-07 15:28 李晓春阅读(1507) 评论(0) 推荐(3)

spark RDD中的partition和hdfs中的block的关系

摘要： hadoop的文件系统hdfs是一款非常优秀的分布式文件系统。hdfs为主从架构，主节点叫NameNode,从节点叫DataNode。主节点负责配合journalNode等完成fsimge完整性，从节点负责存储数据。节点之间通信。。。好吧跑题了！ hdfs文件是分布式存储，每个文件根据配置被切分成b 阅读全文

posted @ 2018-08-07 10:05 李晓春阅读(990) 评论(0) 推荐(1)

Spark容错机制

摘要：引入一般来说，分布式数据集的容错性有两种方式：数据检查点和记录数据的更新。面向大规模数据分析，数据检查点操作成本很高，需要通过数据中心的网络连接在机器之间复制庞大的数据集，而网络带宽往往比内存带宽低得多，同时还需要消耗更多的存储资源。因此，Spark选择记录更新的方式。但是，如果更新粒度太细太阅读全文

posted @ 2018-08-07 09:59 李晓春阅读(299) 评论(0) 推荐(0)

【干货】大数据框架整理

摘要：大数据离线部分 HDFS 1：HDFS的架构部分及工作原理 NameNode：负责管理元素据，将信息保存在内存中 DataNode：保存数据，以块的形式保存。启动后需要定时的向NameNode发送心跳，报告自身存储的块信息 2：HDFS的上传过程 3：HDFS的下载 4：NameNode的元数据安全阅读全文

posted @ 2018-08-06 16:49 李晓春阅读(420) 评论(0) 推荐(0)

且谈Apache Spark的API三剑客：RDD、DataFrame和Dataset

摘要：最令开发者们高兴的事莫过于有一组API，可以大大提高开发者们的工作效率，容易使用、非常直观并且富有表现力。Apache Spark广受开发者们欢迎的一个重要原因也在于它那些非常容易使用的API，可以方便地通过多种语言，如Scala、Java、Python和R等来操作大数据集。在本文中，我将深入讲讲阅读全文

posted @ 2018-08-06 16:31 李晓春阅读(351) 评论(0) 推荐(0)

理解Spark的核心RDD

摘要：理解Spark的核心RDD（转）与许多专有的大数据处理平台不同，Spark建立在统一抽象的RDD之上，使得它可以以基本一致的方式应对不同的大数据处理场景，包括MapReduce，Streaming，SQL，Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计阅读全文

posted @ 2018-08-06 16:09 李晓春阅读(274) 评论(0) 推荐(0)

Spark编程入门

摘要： 1. 交互式Spark-Shell 根据前一节已经搭建好的Hadoop和Spark环境，直接通过脚本启动Hadoop和Spark服务。如果 http://localhost:8080 能够访问，说明Spark服务已经启动。Spark为我们提供了PySpark以及Spark-shell，可以方便的通过阅读全文

posted @ 2018-08-06 15:41 李晓春阅读(4458) 评论(0) 推荐(0)

Spark新特性（DataFrame/DataSet、Structured Streaming和Spark Session）

摘要： spark 新特性主要增加DataFrame/DataSet、Structured Streaming和Spark Session 1. DataFrame/DataSet主要替换之前的RDD，主要优势在执行效率、集群间通信、执行优化和GC开销比RDD有优势。 2. Structured Strea 阅读全文

posted @ 2018-08-06 15:00 李晓春阅读(1923) 评论(0) 推荐(0)

导航

公告