摘要: 在Hadoop2.0中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container. 这样可以精简MapReduce, 使之专注于其擅长的数据处理任务, 将无需考虑资源调度. 如下图所示 YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应 阅读全文
posted @ 2016-10-31 17:27 大葱拌豆腐 阅读(1435) 评论(0) 推荐(0) 编辑
摘要: 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源 阅读全文
posted @ 2016-10-31 17:04 大葱拌豆腐 阅读(701) 评论(1) 推荐(1) 编辑
摘要: 1.基础排序算法 2.二次排序算法 所谓二次排序就是指排序的时候考虑两个维度(有可能10次排序) Java版本 Scala版本 阅读全文
posted @ 2016-10-31 10:37 大葱拌豆腐 阅读(3895) 评论(0) 推荐(0) 编辑
摘要: 提交Spark程序到集群与提交MapReduce程序到集群一样,首先要将写好的Spark程序打成jar包,再在Spark-submit下通过命令提交。 Step1:打包程序 Intellij IDEA进行打包步骤: Step2:提交任务 ./spark-submit --class com.jz.b 阅读全文
posted @ 2016-10-31 10:26 大葱拌豆腐 阅读(3628) 评论(0) 推荐(0) 编辑
摘要: spark序列化 对于优化<网络性能>极为重要,将RDD以序列化格式来保存减少内存占用. spark.serializer=org.apache.spark.serializer.JavaSerialization Spark默认 使用Java自带的ObjectOutputStream 框架来序列化 阅读全文
posted @ 2016-10-30 22:21 大葱拌豆腐 阅读(8348) 评论(1) 推荐(1) 编辑
摘要: 查看CPU信息(型号)cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c 查看内 存信息# cat /proc/meminfo 阅读全文
posted @ 2016-10-28 23:41 大葱拌豆腐 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 执行时需要传入的参数说明 参数名称 含义 --master MASTER_URL 可以是spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local --deploy-mode DEPLOY_MODE Driv 阅读全文
posted @ 2016-10-28 14:18 大葱拌豆腐 阅读(1080) 评论(0) 推荐(0) 编辑
摘要: Hive上一个典型表内除重的写法, p_key为除重依据, sort_word 为排序依据,一般为时间 rn为排名。 这里就留下第一名 注意hql 方言中, 表的嵌套要家别名, 字段前加上表别名。 union all 不支持顶层视图。 阅读全文
posted @ 2016-10-28 14:00 大葱拌豆腐 阅读(644) 评论(0) 推荐(0) 编辑
摘要: ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序,这意味着所有的数据会传送到一个Reduce任务上,这样会导致在大数量的情况下,花费大量时间。 与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下 阅读全文
posted @ 2016-10-27 16:04 大葱拌豆腐 阅读(8231) 评论(0) 推荐(0) 编辑
摘要: 写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出 现在学了Hive,写sql大家都很熟悉,如果一个order by解决了全排序还用那么麻烦写mapreduce函数吗? 事实上,hive使用order by会默认设置reduce的个数=1,既然reducer的 阅读全文
posted @ 2016-10-27 15:52 大葱拌豆腐 阅读(854) 评论(0) 推荐(0) 编辑