大葱拌豆腐 - 博客园

2016年10月31日

摘要：在Hadoop2.0中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container. 这样可以精简MapReduce, 使之专注于其擅长的数据处理任务, 将无需考虑资源调度. 如下图所示 YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应阅读全文

posted @ 2016-10-31 17:27 大葱拌豆腐阅读(1435) 评论(0) 推荐(0) 编辑

spark性能调优：资源优化

摘要：在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源阅读全文

posted @ 2016-10-31 17:04 大葱拌豆腐阅读(701) 评论(1) 推荐(1) 编辑

Spark基础排序+二次排序（java+scala）

摘要： 1.基础排序算法 2.二次排序算法所谓二次排序就是指排序的时候考虑两个维度（有可能10次排序） Java版本 Scala版本阅读全文

posted @ 2016-10-31 10:37 大葱拌豆腐阅读(3895) 评论(0) 推荐(0) 编辑

Spark提交任务到集群

摘要：提交Spark程序到集群与提交MapReduce程序到集群一样，首先要将写好的Spark程序打成jar包，再在Spark-submit下通过命令提交。 Step1:打包程序 Intellij IDEA进行打包步骤： Step2:提交任务 ./spark-submit --class com.jz.b 阅读全文

posted @ 2016-10-31 10:26 大葱拌豆腐阅读(3628) 评论(0) 推荐(0) 编辑

2016年10月30日

在Spark中使用Kryo序列化

摘要： spark序列化对于优化<网络性能>极为重要，将RDD以序列化格式来保存减少内存占用. spark.serializer=org.apache.spark.serializer.JavaSerialization Spark默认使用Java自带的ObjectOutputStream 框架来序列化阅读全文

posted @ 2016-10-30 22:21 大葱拌豆腐阅读(8348) 评论(1) 推荐(1) 编辑

2016年10月28日

Linux查看物理CPU个数、核数、逻辑CPU个数

摘要：查看CPU信息（型号）cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c 查看内存信息# cat /proc/meminfo 阅读全文

posted @ 2016-10-28 23:41 大葱拌豆腐阅读(223) 评论(0) 推荐(0) 编辑

spark-submit工具参数说明

摘要：执行时需要传入的参数说明参数名称含义 --master MASTER_URL 可以是spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local --deploy-mode DEPLOY_MODE Driv 阅读全文

posted @ 2016-10-28 14:18 大葱拌豆腐阅读(1080) 评论(0) 推荐(0) 编辑

Hive中典型的表内数据除重写法

摘要： Hive上一个典型表内除重的写法， p_key为除重依据， sort_word 为排序依据，一般为时间 rn为排名。这里就留下第一名注意hql 方言中，表的嵌套要家别名，字段前加上表别名。 union all 不支持顶层视图。阅读全文

posted @ 2016-10-28 14:00 大葱拌豆腐阅读(644) 评论(0) 推荐(0) 编辑

2016年10月27日

Hive中的排序语法

摘要： ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下阅读全文

posted @ 2016-10-27 16:04 大葱拌豆腐阅读(8231) 评论(0) 推荐(0) 编辑

hive中的全排序

摘要：写mapreduce程序时，如果reduce个数>1，想要实现全排序需要控制好map的输出现在学了Hive，写sql大家都很熟悉，如果一个order by解决了全排序还用那么麻烦写mapreduce函数吗？事实上，hive使用order by会默认设置reduce的个数=1，既然reducer的阅读全文

posted @ 2016-10-27 15:52 大葱拌豆腐阅读(854) 评论(0) 推荐(0) 编辑

公告