2019 年 5月随笔档案 - 任重而道远的小蜗牛

SparkCore高级应用2(Spark on yarn)

摘要：Yarn产生的背景在没有YARN之前，是一个集群一个计算框架。比如：Hadoop一个集群、Spark一个集群、HBase一个集群等，造成各个集群管理复杂，资源的利用率很低；比如：在某个时间段内Hadoop集群忙而Spark集群闲着，反之亦然，各个集群之间不能共享资源造成集群间资源并不能充分利用；阅读全文

posted @ 2019-05-30 15:23 任重而道远的小蜗牛阅读(398) 评论(0) 推荐(0) 编辑

Sparkcore高级应用一

摘要：WC案例查看http://hadoop001:4040的web界面查看http://hadoop001:4040的web界面从Job_id 可以看出，一个WC一共有3个job发生，点击第三个job（即Job_id=2），我们可以看到job的DAG导向图从DAG图中可以看出，一共有2个stag 阅读全文

posted @ 2019-05-27 17:45 任重而道远的小蜗牛阅读(283) 评论(0) 推荐(0) 编辑

Spark面试

摘要：转载于https://blog.csdn.net/qq_33314107/article/details/80889282 Spark Core面试篇01随着Spark技术在企业中应用越来越广泛，Spark成为大数据开发必须掌握的技能。前期分享了很多关于Spark的学习视频和文章，为了进一步巩固和掌阅读全文

posted @ 2019-05-23 23:35 任重而道远的小蜗牛阅读(923) 评论(0) 推荐(0) 编辑

RDD缓存与RDD序列化缓存的大小对比

摘要：RDD的缓存一般就是用cache和persist，那二者之间有什么关系，又有什么区别呢？关系： persist()内部调用了persist(StorageLevel.MEMORY_ONLY) cache()调用了persist() 区别： persist有一个 StorageLevel 类型的参数阅读全文

posted @ 2019-05-23 23:07 任重而道远的小蜗牛阅读(759) 评论(0) 推荐(0) 编辑

Azkaban3.57.0的编译安装以及简单使用

摘要：1.Azkaban 简介 azkaban是一个开源的任务调度系统，用于负责的调度运行（如数据仓库调度），用以替代Linux中的crontab。 azkaban是一个开源的任务调度系统，用于负责的调度运行（如数据仓库调度），用以替代Linux中的crontab。 Azkaban是一套简单的任务调度服务阅读全文

posted @ 2019-05-21 17:42 任重而道远的小蜗牛阅读(2169) 评论(2) 推荐(0) 编辑

常用的Transiformation算子

摘要：<1>map /** * Return a new RDD by applying a function to all elements of this RDD. * 一对一的进行RDD的转换操作，并且产生一个新的RDD储存所有的elements */ def map[U: ClassTag](f: 阅读全文

posted @ 2019-05-20 17:34 任重而道远的小蜗牛阅读(365) 评论(0) 推荐(0) 编辑

SparkCore的常用算子

摘要：SparkCore算子简介 SparkCore中的算子可以分为2类：Transformations Operation 和 Action Operation 在Spark的提交过程中，会将RDD及作用于其上的一系列算子（即：RDD及其之间的依赖关系）构建成一个DAG有向无环视图。当遇到action算阅读全文

posted @ 2019-05-17 16:03 任重而道远的小蜗牛阅读(1942) 评论(0) 推荐(0) 编辑

RDD的五大特点

摘要：1.RDD的官网定义 A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable，partitioned collection of elements that can 阅读全文

posted @ 2019-05-13 17:34 任重而道远的小蜗牛阅读(7829) 评论(2) 推荐(0) 编辑

spark的core知识之官网分享

摘要：以下的这篇文章是spark官网关于集群规模的一篇概述，以及一些术语的解释，还有一些图解架构 Cluster Mode Overview 群集模式概述本文档简要概述了Spark如何在集群上运行，以便更容易理解所涉及的组件。阅读应用程序提交指南，了解有关在群集上启动应用程序的信息。 Componen 阅读全文

posted @ 2019-05-10 17:31 任重而道远的小蜗牛阅读(206) 评论(0) 推荐(0) 编辑

scala基础学习

摘要：scala部署好以后我们来进行基础学习 val与var scala> val name:String = "17"name: String = 17 scala> name = "dashu"<console>:12: error: reassignment to val name = "dashu 阅读全文

posted @ 2019-05-03 21:41 任重而道远的小蜗牛阅读(463) 评论(0) 推荐(0) 编辑

spark编译

摘要：环境准备环境准备如果你是scala2.11.8，应该也没有问题，因为看下图，也就是说我们的spark2.4.2版本对应着2.11版本的任何一个小版本的scala都可以。下载下载解压解压配置文件 --这里有巨坑配置文件 --这里有巨坑修改make-distribution.sh 修改阅读全文

posted @ 2019-05-03 00:02 任重而道远的小蜗牛阅读(1919) 评论(0) 推荐(0) 编辑

使用MapReduce实现两个文件的Join操作

摘要：数据结构 customer表 oder表 MAPJOIN 场景：我们模拟一个有一份小表一个大表的场景，customer是那份小表，order是那份大表做法：直接将较小的数据加载到内存中，按照连接的关键字建立索引，大份数据作为MapTask的输入键值对 map()方法的每次输入都去内存当中直接去匹配阅读全文

posted @ 2019-05-02 22:02 任重而道远的小蜗牛阅读(1491) 评论(0) 推荐(0) 编辑

大数据面试题整理

摘要：1、fsimage和edit的区别？ 2、列举几个配置文件优化？ --发挥 3、datanode 首次加入 cluster 的时候，如果 log 报告不兼容文件版本，那需要namenode 执行格式化操作，这样处理的原因是？ 4、MapReduce 中排序发生在哪几个阶段？这些排序是否可以避免？为什阅读全文

posted @ 2019-05-02 09:49 任重而道远的小蜗牛阅读(9638) 评论(0) 推荐(0) 编辑

scala之使用scalikejdbc操作数据库

摘要：scalikejdbc的简介： ScalikeJDBC是一款给Scala开发者使用的简介访问类库，它是基于SQL的，使用者只需要关注SQL逻辑的编写，所有的数据库操作都交给ScalikeJDBC。这个类库内置包含了JDBCAPI，并且给用户提供了简单易用并且非常灵活的API。并且，QueryDSl（阅读全文

posted @ 2019-05-01 09:48 任重而道远的小蜗牛阅读(2725) 评论(0) 推荐(0) 编辑

scala的安装与部署

摘要：【环境准备】 scala-2.11.8 下载地址：https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz jdk1.8 【安装过程】部署完成这是我学大数据以来，安装部署最顺利最没有坑的一个软件，大爱阅读全文

posted @ 2019-05-01 08:38 任重而道远的小蜗牛阅读(642) 评论(0) 推荐(0) 编辑

IT界的小十七

05 2019 档案

公告

搜索

常用链接

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论