2017年5月28日
摘要: 报错信息: 解决方案: 1. 请使用其他编码方式,例如“fixed_length”,“integer”等。 2. Apache Kylin中对上亿字符串的精确Count_Distinct示例 – lxw的大数据田地 阅读全文
posted @ 2017-05-28 18:19 山君 阅读(2138) 评论(0) 推荐(0) 编辑
摘要: 一个kylin build job执行到第三步Extract Fact Table Distinct Columns时报错: 解决方案:找到执行这个build任务的kylin实例,reload metadata或重启kylin服务(不推荐),然后重新build. 原因分析:执行build的job s 阅读全文
posted @ 2017-05-28 18:13 山君 阅读(3243) 评论(2) 推荐(0) 编辑
摘要: 方法:去掉参数SET hive.auto.convert.join=true; 从配置文件$KYLIN_HOME/conf/kylin_hive_conf.xml删掉 或 kylin-gui的cube的“参数覆盖”页上删掉。 其实关于hive.auto.convert.join kylin用的是 S 阅读全文
posted @ 2017-05-28 18:06 山君 阅读(3932) 评论(0) 推荐(0) 编辑
摘要: 可能原因: 1. mesos-slave上资源不够,一般是内存不够。可上mesos-master:5050上查看 2. 宿主机上没有镜像,一直在拉或拉不到。上宿主机上查看: docker images | grep xxx,确保marathon上配置的镜像名和版本在宿主机上存在 3. maratho 阅读全文
posted @ 2017-05-28 17:59 山君 阅读(1571) 评论(0) 推荐(0) 编辑
摘要: sql是:select count(distinct col) from db.table; 排查过程中遇到过几个不同的报错: 1. beeline -u jdbc:hive2://0.0.0.0:10000 -e "select count(distinct col) from db.table; 阅读全文
posted @ 2017-05-28 17:57 山君 阅读(3373) 评论(0) 推荐(0) 编辑
  2014年5月13日
摘要: 1. SELECT语句可以使用正则表达式做列选择,下面的语句查询除了ds和h 之外的所有列:SELECT `(ds|hr)?+.+` FROM sales2. LEFT SEMI JOIN的限制是, JOIN子句中右边的表只能在ON子句中设置过滤条件,在WHERE子句、SELECT子句或其他地方过滤... 阅读全文
posted @ 2014-05-13 18:42 山君 阅读(751) 评论(0) 推荐(0) 编辑
  2014年4月30日
摘要: 直接在hql中使用中文会报错:org.apache.hadoop.ipc.RemoteException: java.io.IOException: java.lang.RuntimeException: com.sun.org.apache.xerces.internal.impl.io.Malf... 阅读全文
posted @ 2014-04-30 19:02 山君 阅读(4986) 评论(0) 推荐(0) 编辑
  2014年1月2日
摘要: 条件:给出一个文件,其中每行一个IP段(IPv4,其实IPv6类似,只是规模剧增)及其对应的信息(例如物理地址信息),内容及格式为: 内容说明:1. 都为包含状态,即[, ]2. 各IP段不重合3. IP段有空洞,即有些IP不能找到对应段问题:给出一个IP,请实现算法返回其对应的 等信息算法一:扩展每个IP段,构造每个IP与其对应 信息的结构,以IP作key读入内存优点:简单易实现缺点:占用内容过大算法二:扩展每个IP段,构造每个IP与其对应 信息的数据,以IP作key写入数据库优点:简单易实现缺点:需要额外的数据库服务,使用频繁时性能不高算法三:近似查找。此方法有两个关... 阅读全文
posted @ 2014-01-02 18:06 山君 阅读(1858) 评论(0) 推荐(0) 编辑
  2013年12月27日
摘要: hive中删除列时没有与mysql语句alter table drop column 对应的语句。然而依然可以完成此功能:使用ALTER TABLE log_messages REPLACE COLUMNS (),具体语法请参见《Programing Hive》中“Deleting or Replacing Columns”小节。注:分区列不能出现在中,在hive v0.7.1中是这样,其他版本不详。 阅读全文
posted @ 2013-12-27 17:54 山君 阅读(7425) 评论(0) 推荐(0) 编辑
  2013年12月26日
摘要: 工作上每天的日志数据和结果数据有很多,如果不及时清理服务器很快就爆掉了。之前都是在各个任务自己的程序中清理,项目多了之后感觉配置复杂而且很多重复的工作,况且清理数据工作本身比较相似、独立,于是就把这部分工作集中一起处理。工具由shell脚本和配置文件实现,主要功能特点有:1. 支持删除本地数据,包括文件夹和文件,支持通配符2. 支持删除hadoop hdfs数据,包括文件夹和文件,支持通配符,支持跨集群3. 支持hive删除分区,使用drop partition语句实现,支持跨集群4. 单项数据保留时间可配置5. 一个配置文件,集中管理配置文件格式:"#注释内容file (可带通配符 阅读全文
posted @ 2013-12-26 18:59 山君 阅读(710) 评论(0) 推荐(0) 编辑