上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 14 下一页
摘要: 1.RDD的官网定义 A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,partitioned collection of elements that can 阅读全文
posted @ 2019-05-13 17:34 任重而道远的小蜗牛 阅读(7558) 评论(2) 推荐(0) 编辑
摘要: 以下的这篇文章是spark官网关于集群规模的一篇概述,以及一些术语的解释,还有一些图解架构 Cluster Mode Overview 群集模式概述 本文档简要概述了Spark如何在集群上运行,以便更容易理解所涉及的组件。阅读应用程序提交指南 ,了解有关在群集上启动应用程序的信息。 Componen 阅读全文
posted @ 2019-05-10 17:31 任重而道远的小蜗牛 阅读(196) 评论(0) 推荐(0) 编辑
摘要: scala部署好以后我们来进行基础学习 val与var scala> val name:String = "17"name: String = 17 scala> name = "dashu"<console>:12: error: reassignment to val name = "dashu 阅读全文
posted @ 2019-05-03 21:41 任重而道远的小蜗牛 阅读(457) 评论(0) 推荐(0) 编辑
摘要: 环境准备 环境准备 如果你是scala2.11.8,应该也没有问题,因为看下图,也就是说我们的spark2.4.2版本对应着2.11版本的任何一个小版本的scala都可以。 下载 下载 解压 解压 配置文件 --这里有巨坑 配置文件 --这里有巨坑 修改make-distribution.sh 修改 阅读全文
posted @ 2019-05-03 00:02 任重而道远的小蜗牛 阅读(1900) 评论(0) 推荐(0) 编辑
摘要: 数据结构 customer表 oder表 MAPJOIN 场景:我们模拟一个有一份小表一个大表的场景,customer是那份小表,order是那份大表做法:直接将较小的数据加载到内存中,按照连接的关键字建立索引, 大份数据作为MapTask的输入键值对 map()方法的每次输入都去内存当中直接去匹配 阅读全文
posted @ 2019-05-02 22:02 任重而道远的小蜗牛 阅读(1476) 评论(0) 推荐(0) 编辑
摘要: 1、fsimage和edit的区别? 2、列举几个配置文件优化? --发挥 3、datanode 首次加入 cluster 的时候,如果 log 报告不兼容文件版本,那需要namenode 执行格式化操作,这样处理的原因是? 4、MapReduce 中排序发生在哪几个阶段?这些排序是否可以避免?为什 阅读全文
posted @ 2019-05-02 09:49 任重而道远的小蜗牛 阅读(9606) 评论(0) 推荐(0) 编辑
摘要: scalikejdbc的简介: ScalikeJDBC是一款给Scala开发者使用的简介访问类库,它是基于SQL的,使用者只需要关注SQL逻辑的编写,所有的数据库操作都交给ScalikeJDBC。这个类库内置包含了JDBCAPI,并且给用户提供了简单易用并且非常灵活的API。并且,QueryDSl( 阅读全文
posted @ 2019-05-01 09:48 任重而道远的小蜗牛 阅读(2695) 评论(0) 推荐(0) 编辑
摘要: 【环境准备】 scala-2.11.8 下载地址 :https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz jdk1.8 【安装过程】 部署完成 这是我学大数据以来,安装部署最顺利最没有坑的一个软件,大爱 阅读全文
posted @ 2019-05-01 08:38 任重而道远的小蜗牛 阅读(639) 评论(0) 推荐(0) 编辑
摘要: 简介: hive是建立在hadoop之上的数据仓库,一般用于对大型数据集的读写和管理,存在hive里的数据实际上就是存在HDFS上,都是以文件的形式存在,不能进行读写操作,所以我们需要元数据或者说叫schem来对hdfs上的数据进行管理。那元数据表之间有没有什么关联呢?答案是肯定的。hive默认元数 阅读全文
posted @ 2019-04-23 13:50 任重而道远的小蜗牛 阅读(10585) 评论(0) 推荐(0) 编辑
摘要: UDF的定义 UDF(User-Defined Functions)即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求,这时就需要我们自定义函数了 UDF的分类 这三类中,我们只对UDF类的函数进行改写 这三类中,我们只对UDF类的函数进行改写 pom文件配置 UDF函数编写 打j 阅读全文
posted @ 2019-04-23 12:01 任重而道远的小蜗牛 阅读(43949) 评论(1) 推荐(3) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 14 下一页