上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 19 下一页
摘要: 由于Spark 的计算本质是基于内存的,所以Spark的性能城西的性能可能因为集群中的任何因素出现瓶颈:CPU、网络带宽、或者是内存。如果内存能够容得下所有的数据,那么网络传输和通信就会导致性能出现频惊。但是如果内存比较紧张,不足以放下所有的数据(比如在针对10亿以上的数据量进行计算时),还是需要对 阅读全文
posted @ 2017-10-24 10:51 RZ_Lee 阅读(340) 评论(0) 推荐(0) 编辑
摘要: Checkpoint,是Spark 提供的一个比较高级的功能。有的时候,比如说,我们的 Spark 应用程序,特别的复杂,然后从初始的RDD开始,到最后拯个应用程序完成,有非常多的步骤,比如超过20个transformation 操作。而且整个应用运行的时间也特别的长,比如通常要运行1-5小时。 在 阅读全文
posted @ 2017-10-24 09:19 RZ_Lee 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 在spark新版本中,引入了 consolidation 机制,也就是说提出了ShuffleGroup的概念。一个 ShuffleMapTask 将数据写入 ResultTask 数量的本地文本,这个不会变。但是,当下一个 ShuffleMapTask 运行的时候,可以直接将数据写入之前的 Shuf 阅读全文
posted @ 2017-10-24 08:39 RZ_Lee 阅读(259) 评论(0) 推荐(0) 编辑
摘要: 在spark中,什么情况下会发生shuffle? reduceByKey,groupByKey,sortByKey,countByKey,join,cogroup等操作。 默认的shuffle操作的原理剖析 假设有一个节点上面运行了4个 ShuffleMapTask,然后这个节点上只有2个 cpu 阅读全文
posted @ 2017-10-23 21:20 RZ_Lee 阅读(338) 评论(0) 推荐(0) 编辑
摘要: Spark内核架构原理 1.Driver 选spark节点之一,提交我们编写的spark程序,开启一个Driver进程,执行我们的Application应用程序,也就是我们自己编写的代码。Driver会根据我们对RDD定义的操作,提交一大堆的task去Executor上。Driver注册了一些Exe 阅读全文
posted @ 2017-10-22 01:09 RZ_Lee 阅读(348) 评论(0) 推荐(0) 编辑
摘要: Spark特点: 1.分布式 spark读取数据时是把数据分布式存储到各个节点内存中 2.主要基于内存(少数情况基于磁盘,如shuffle阶段) 所有计算操作,都是针对多个节点上内存的数据,进行并行操作的 3.迭代式计算 对分布式节点内存中的数据进行处理,处理后的数据可能会移动到其他节点的内存中,当 阅读全文
posted @ 2017-10-21 08:59 RZ_Lee 阅读(667) 评论(0) 推荐(0) 编辑
摘要: 创建数据库 查看数据库 删除数据库 创建表 查看表结构 查看表详细信息 将表的详细信息格式化一下,开发中常用 加载本地数据到表中 修改hive表字段信息(字段名/字段类型) 将hive内部表转为外部表 改变外部表的location路径 查看hive表的创建信息 查看hive中的函数 查看函数怎么使用 阅读全文
posted @ 2017-10-18 10:14 RZ_Lee 阅读(648) 评论(0) 推荐(0) 编辑
摘要: 什么是 Hive? Hive 是由 FaceBook 开源用于解决少量数据结构化日志的数据统计。Hive是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能。Hive 处理的数据存储在 HDFS 上,分析数据的底层实现是 MapReduce ,执行程序 阅读全文
posted @ 2017-10-17 13:26 RZ_Lee 阅读(242) 评论(0) 推荐(0) 编辑
摘要: 在实际的生产环境中,我们的企业都有测试集群和生产集群,有的比较大型的企业有多个版本的Hadoop 大数据集群,这时候有个这样的需求,各个集群上的资源需要进行迁移,比如说一些生产集群需要一些测试集群的数据,需要将测试集群的上的数据拷贝到生产集群,这时候就需要使用到分布式拷贝(Distributed C 阅读全文
posted @ 2017-10-17 01:33 RZ_Lee 阅读(663) 评论(0) 推荐(0) 编辑
摘要: 集群的时间要同步 * 找一台机器 时间服务器 * 所有的机器与这台机器时间进行定时的同步 比如,每日十分钟,同步一次时间 # rpm -qa|grep ntp # vi /etc/ntp.conf # vi /etc/sysconfig/ntpd # Drop root to id 'ntp:ntp 阅读全文
posted @ 2017-10-16 17:57 RZ_Lee 阅读(168) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 19 下一页