2016 年 10月随笔档案 - 大葱拌豆腐

YARN内存使用优化配置

摘要：在Hadoop2.0中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container. 这样可以精简MapReduce, 使之专注于其擅长的数据处理任务, 将无需考虑资源调度. 如下图所示 YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应阅读全文

posted @ 2016-10-31 17:27 大葱拌豆腐阅读(1444) 评论(0) 推荐(0) 编辑

spark性能调优：资源优化

摘要：在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源阅读全文

posted @ 2016-10-31 17:04 大葱拌豆腐阅读(716) 评论(1) 推荐(1) 编辑

Spark基础排序+二次排序（java+scala）

摘要：1.基础排序算法 2.二次排序算法所谓二次排序就是指排序的时候考虑两个维度（有可能10次排序） Java版本 Scala版本阅读全文

posted @ 2016-10-31 10:37 大葱拌豆腐阅读(3903) 评论(0) 推荐(0) 编辑

Spark提交任务到集群

摘要：提交Spark程序到集群与提交MapReduce程序到集群一样，首先要将写好的Spark程序打成jar包，再在Spark-submit下通过命令提交。 Step1:打包程序 Intellij IDEA进行打包步骤： Step2:提交任务 ./spark-submit --class com.jz.b 阅读全文

posted @ 2016-10-31 10:26 大葱拌豆腐阅读(3644) 评论(0) 推荐(0) 编辑

在Spark中使用Kryo序列化

摘要：spark序列化对于优化<网络性能>极为重要，将RDD以序列化格式来保存减少内存占用. spark.serializer=org.apache.spark.serializer.JavaSerialization Spark默认使用Java自带的ObjectOutputStream 框架来序列化阅读全文

posted @ 2016-10-30 22:21 大葱拌豆腐阅读(8409) 评论(1) 推荐(1) 编辑

Linux查看物理CPU个数、核数、逻辑CPU个数

摘要：查看CPU信息（型号）cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c 查看内存信息# cat /proc/meminfo 阅读全文

posted @ 2016-10-28 23:41 大葱拌豆腐阅读(225) 评论(0) 推荐(0) 编辑

spark-submit工具参数说明

摘要：执行时需要传入的参数说明参数名称含义 --master MASTER_URL 可以是spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local --deploy-mode DEPLOY_MODE Driv 阅读全文

posted @ 2016-10-28 14:18 大葱拌豆腐阅读(1084) 评论(0) 推荐(0) 编辑

Hive中典型的表内数据除重写法

摘要：Hive上一个典型表内除重的写法， p_key为除重依据， sort_word 为排序依据，一般为时间 rn为排名。这里就留下第一名注意hql 方言中，表的嵌套要家别名，字段前加上表别名。 union all 不支持顶层视图。阅读全文

posted @ 2016-10-28 14:00 大葱拌豆腐阅读(646) 评论(0) 推荐(0) 编辑

Hive中的排序语法

摘要：ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下阅读全文

posted @ 2016-10-27 16:04 大葱拌豆腐阅读(8250) 评论(0) 推荐(0) 编辑

hive中的全排序

摘要：写mapreduce程序时，如果reduce个数>1，想要实现全排序需要控制好map的输出现在学了Hive，写sql大家都很熟悉，如果一个order by解决了全排序还用那么麻烦写mapreduce函数吗？事实上，hive使用order by会默认设置reduce的个数=1，既然reducer的阅读全文

posted @ 2016-10-27 15:52 大葱拌豆腐阅读(861) 评论(0) 推荐(0) 编辑

group by和distinct语句的执行顺序

摘要：同一条语句之中，如果同时有group by和distinct语句，是先group by后distinct，还是先distinct后group by呢？先说结论：先group by后distinct。以下是在Hive中的验证： 1）建表：其中xxx替换为本地目录名 2）从tmp_tb文件中导入数据阅读全文

posted @ 2016-10-27 15:26 大葱拌豆腐阅读(3512) 评论(1) 推荐(0) 编辑

选择两个字段时distinct位置的影响

摘要：当选择两个字段时，例如："select XX1, XX2 from tb; "，那么将distinct放在前一个字段XX1之前和放在后一个字段XX2之前，结果有什么不同呢？先说结论：如果将distinct放在前一个字段之前，则会返回对两个字段的组合去重后的结果；而如果将distinct放在后一个字阅读全文

posted @ 2016-10-27 15:22 大葱拌豆腐阅读(3006) 评论(0) 推荐(1) 编辑

分布式MySQL集群方案的探索与思考

摘要：转载：http://www.infoq.com/cn/articles/exploration-of-distributed-mysql-cluster-scheme?utm_campaign=rightbar_v2&utm_source=infoq&utm_medium=articles_link 阅读全文

posted @ 2016-10-14 11:15 大葱拌豆腐阅读(248) 评论(0) 推荐(0) 编辑

分布式系统事务一致性解决方案

摘要：转载：http://www.infoq.com/cn/articles/solution-of-distributed-system-transaction-consistency 开篇在OLTP系统领域，我们在很多业务场景下都会面临事务一致性方面的需求，例如最经典的Bob给Smith转账的案例。阅读全文

posted @ 2016-10-14 10:54 大葱拌豆腐阅读(221) 评论(0) 推荐(0) 编辑

Centos 7.1+CDH5.7.2全部署流程

摘要：前期准备： JDK环境版本：jdk-8u101-linux-x64.rpm 下载地址：oracle官网 mysql rpm包：http://dev.mysql.com/get/Downloads/MySQL-5.6/MySQL-5.6.26-1.linux_glibc2.5.x86_64.rpm- 阅读全文

posted @ 2016-10-13 10:46 大葱拌豆腐阅读(4447) 评论(1) 推荐(1) 编辑

配置NTP服务ntpd/ntp.conf（搭建Hadoop集群可参考）

摘要：本文拟定是在一个局域网内（比如一个Hadoop集群）设定一台NTP服务器作为整个网络的标准时间参考，使用网络（集群）内的所有机器保持时间一致！以下是详细的操作步骤： 1. 修改选定的服务器的本地时间 #date -s '2014-11-21 12:48:30' +'%F %T' #2014-11-2 阅读全文

posted @ 2016-10-12 14:49 大葱拌豆腐阅读(1540) 评论(0) 推荐(0) 编辑

Centos 7配置ntp时间同步

摘要：1.NTP时钟同步方式说明 NTP在linux下有两种时钟同步方式，分别为直接同步和平滑同步： 1)直接同步使用ntpdate命令进行同步，直接进行时间变更。如果服务器上存在一个12点运行的任务，当前服务器时间是13点，但标准时间时11点，使用此命令可能会造成任务重复执行。因此使用ntpdate同阅读全文

posted @ 2016-10-12 14:40 大葱拌豆腐阅读(912) 评论(0) 推荐(0) 编辑

10 2016 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论