12 2015 档案

摘要:开始试着每月做计划和总结,有节奏的规划自己的时间,一月计划:1、hive那本书拖了很久了,一月一定会看完。2、因为跟着阚爷的风准备试着做一下讲师,分配给我的是推荐这块,所以网上多找找做推荐的资源,要再熟悉一下常见推荐算法 要熟悉一下sparkml,准备拿它做协同过滤。 最终确定一套整体方案,并进... 阅读全文
posted @ 2015-12-31 10:17 HarkLee 阅读(142) 评论(0) 推荐(0) 编辑
摘要:我之前用的是有问题的。。。应该是这样用: str_to_map('a=b c=d f=e',' ','=') 这样就会拆成map,等号前面是key,后面是value 阅读全文
posted @ 2015-12-30 11:49 HarkLee 阅读(1804) 评论(0) 推荐(0) 编辑
摘要:因为要往自定义的UDF传入复杂类型,所以需要对于这块的对应简单做一下总结string java.lang.String, org.apache.hadoop.io.Textint int, java.lang.Integer, org.apache.hadoop.io.IntWritablebool... 阅读全文
posted @ 2015-12-29 16:37 HarkLee 阅读(1990) 评论(0) 推荐(1) 编辑
摘要:李晓亮的2015年总结和2016年规划(未校对)2015年年终总结:1、公司上,这一年实际经历了三家公司;1)、第一家呆至今年5月,是鹏博士底下的一个O2O项目,可能公司与鹏博士之间出现了什么问题,反正老大们都撤了,我也就撤了。最后去了鹏博士的另一家子公司,做电子盒子的,在该公司数据团队服务。在该公... 阅读全文
posted @ 2015-12-27 22:18 HarkLee 阅读(353) 评论(2) 推荐(1) 编辑
摘要:通过maven打完包,运行jars时,会输出警告log4j:WARN No appenders could be found for logger (com.dlht.DataCenterSYNC.opt.App).log4j:WARN Please initialize the log4j sys... 阅读全文
posted @ 2015-12-25 12:11 HarkLee 阅读(1668) 评论(0) 推荐(0) 编辑
摘要:之前我还在想了解下datax,是否有可能替换sqoop,但了解后发现,datax和sqoop的业务场景是不同的。前者适合异构数据库的同步,后者适合hdfs与rdbms互相之间的同步。针对sqoop的应用场景使用datax那么速度会有加倍的差距。主要原因在于datax是一个节点写数据,而sqoop... 阅读全文
posted @ 2015-12-24 15:49 HarkLee 阅读(624) 评论(0) 推荐(0) 编辑
摘要:如题 阅读全文
posted @ 2015-12-21 19:50 HarkLee 阅读(1542) 评论(0) 推荐(0) 编辑
摘要:其实就是from表时,可以插入到多个表。 sql语句的模板如下:from historyinsert overwrite sales select * where actino='purchased'inesrt overwrite credits select * where action = '... 阅读全文
posted @ 2015-12-17 17:14 HarkLee 阅读(476) 评论(0) 推荐(0) 编辑
摘要:将set hive.limit.optimize.enable=true 时,limit限制数据时就不会全盘扫,而是根据限制的数量进行抽样。同时还有两个配置项需要注意:1、hive.limit.row.max.size 我理解这个是控制最大的抽样数量2、 hive.limit.optimize.l... 阅读全文
posted @ 2015-12-17 17:12 HarkLee 阅读(2319) 评论(0) 推荐(0) 编辑
摘要:可以通过修改set hive.exec.parallel=true来修改并行度。如果job中并行执行的阶段增多,那么集群利用率会增加。 阅读全文
posted @ 2015-12-17 17:04 HarkLee 阅读(1989) 评论(0) 推荐(1) 编辑
摘要:转自 :http://mp.weixin.qq.com/s?__biz=MzA5ODM5MDU3MA==&mid=401136434&idx=1&sn=774a4e53d95ff9e34fbfa57df44dbb8d&scene=2&srcid=12162ON7Ty466yoisUvGaKsD&fr... 阅读全文
posted @ 2015-12-16 10:23 HarkLee 阅读(552) 评论(0) 推荐(0) 编辑
摘要:转自http://lookqlp.iteye.com/blog/2189119 。 配置起来较复杂,需要在有测试环境之后再进行配置测试。 之后是有上HUE的计划的,所以这个也是一定要做的。目标:给各个业务组提供不同用户及用户组,并有限制的访问hdfs路径,及hive数据库。前提:clouderac... 阅读全文
posted @ 2015-12-11 18:12 HarkLee 阅读(4291) 评论(0) 推荐(0) 编辑
摘要:转自 http://molisa.iteye.com/blog/1953390 我主要是根据这个说明调整的HUE的时区问题 在使用Cloudera Hue时遇到一问题: 1. 使用Sqoop导入功能时,由于配置错误,使得“保存运行”后Job并不能正常提交,且界面上没有相关提示: 使用Hue的Sqoo 阅读全文
posted @ 2015-12-11 17:47 HarkLee 阅读(4735) 评论(0) 推荐(0) 编辑
摘要:Linux根分区扩容1.fdisk–l(红线部分为新添加的硬盘)2.磁盘格式化3.mkfs.ext3-Tlargefile/dev/sde(格式化上面的分区)4.vgdisplay查看当前卷组情况(红色内容表明没有可用的扩展空间)5.pvcreate/dev/sde创建pv6.vgextendVol... 阅读全文
posted @ 2015-12-11 10:45 HarkLee 阅读(12126) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/jianxie/p/3990377.html一、启动 cd usr/local/nginx/sbin./nginx cd usr/local/nginx/sbin./nginx二、重启 更改配置重启nginx kill -HUP 主进程号或进程号... 阅读全文
posted @ 2015-12-08 20:07 HarkLee 阅读(237) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示