2016 年 5月随笔档案 - HarkLee

【转】Kylin的cube模型

摘要：转自：http://www.cnblogs.com/en-heng/p/5239311.html 1. 数据仓库的相关概念 OLAP 大部分数据库系统的主要任务是执行联机事务处理和查询处理，这种处理被称为OLTP（Online Transaction Processing, OLTP），面向的是顾客阅读全文

posted @ 2016-05-31 15:46 HarkLee 阅读(2234) 评论(0) 推荐(0) 编辑

kylin1.5新特性 new aggregation group

摘要：终于啃完并理解了，我果然弱鸡。new aggregation group，是kylin 1.5的新特性；老版本中的agg是需要选中所有可能被使用的纬度字段，以供查询；但存在高纬度的查询需求，例如查询某订单编号编号的数据，这时应该仅仅做filter，而不需要为此做cube，但在老版本的agg中，是不允阅读全文

posted @ 2016-05-30 17:19 HarkLee 阅读(1051) 评论(1) 推荐(1) 编辑

kylin学习笔记

摘要：阅读官网，学到哪就写到哪 1、需要先建立Model 2、kylin需要配置事实表，纬度表；可以自定义join。我的用法和官方建议的不同，我是直接在hive中将所有的取join成一个单表，再根据单表进行cude kylin。因为我的join的同时有一些业务上的处理。 3、需要选择cude的纬度字段阅读全文

posted @ 2016-05-27 15:50 HarkLee 阅读(1119) 评论(0) 推荐(0) 编辑

sqoop与mysql之间中文乱码

摘要：sudo -u hive sqoop export --connect "jdbc:mysql://192.168.22.201/LauncherDB?useUnicode=true&characterEncoding=utf-8" --username root --password xxxxx- 阅读全文

posted @ 2016-05-27 12:14 HarkLee 阅读(757) 评论(0) 推荐(0) 编辑

【转】【技术博客】Spark性能优化指南——高级篇

摘要：http://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651745207&idx=1&sn=3d70d59cede236eb1cb4f7374387a235&scene=0#rd 【技术博客】Spark性能优化指南——高级篇 2016-05-13 阅读全文

posted @ 2016-05-27 10:46 HarkLee 阅读(744) 评论(0) 推荐(0) 编辑

【转】史上最全“大数据”学习资源整理

摘要：http://mp.weixin.qq.com/s?__biz=MzA5MTc0NTMwNQ==&mid=2650713542&idx=1&sn=6fb304aa04be4bef4799036aeff157f5&scene=0#rd 史上最全“大数据”学习资源整理 2016-05-17 Hadoop 阅读全文

posted @ 2016-05-27 10:46 HarkLee 阅读(5889) 评论(0) 推荐(0) 编辑

【转】Spark性能优化指南——基础篇

摘要：http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a64bdbb25c51508dfc&scene=2&srcid=0519iChOETxAx0OeGoHnm7Xk&from= 阅读全文

posted @ 2016-05-27 10:45 HarkLee 阅读(20119) 评论(2) 推荐(0) 编辑

【干货收藏】统计分析/机器学习吐血整理最强指南

摘要：http://mp.weixin.qq.com/s?__biz=MzAxNzc3NDA3OA==&mid=2651304431&idx=1&sn=4e82688613ecc6ae7c0eabdd94c63e4d&scene=2&srcid=0522V4U6Pi5XVmh6bxAMDY02&from= 阅读全文

posted @ 2016-05-27 10:44 HarkLee 阅读(7144) 评论(1) 推荐(1) 编辑

【转】超强收藏必备！盘点互联网人必须知道的数据报告网站

摘要：http://mp.weixin.qq.com/s?__biz=MjM5NDQ4MTcwMA==&mid=2650653721&idx=1&sn=71011e7f90d7f17e62244213ce9e12d4&scene=0#rd 超强收藏必备！盘点互联网人必须知道的数据报告网站 2016-05- 阅读全文

posted @ 2016-05-27 10:42 HarkLee 阅读(641) 评论(0) 推荐(0) 编辑

【方案】去哪儿网徐磊：如何利用开源技术构建日处理130亿+的实时日志平台？

摘要：转自：http://mp.weixin.qq.com/s?__biz=MzIzMzEzODYwOA==&mid=2665284466&idx=1&sn=2b06a529821734e36e26e642424f24fc&scene=2&srcid=0527p3qISp6dFqGg8iLIYgRF&fr 阅读全文

posted @ 2016-05-27 10:02 HarkLee 阅读(6419) 评论(0) 推荐(1) 编辑

博客推荐

摘要：spark sparkstreaming 架构，源代码分析 : http://www.cnblogs.com/zhouyf/ 阅读全文

posted @ 2016-05-26 20:00 HarkLee 阅读(127) 评论(0) 推荐(0) 编辑

【转】HBase 超详细介绍

摘要：恢复内容开始 http://blog.csdn.net/frankiewang008/article/details/41965543 1-HBase的安装 HBase是什么？ HBase是Apache Hadoop中的一个子项目，Hbase依托于Hadoop的HDFS作为最基本存储基础单元，通过使阅读全文

posted @ 2016-05-25 14:31 HarkLee 阅读(1383) 评论(0) 推荐(1) 编辑

【转】有赞的kylin方案

摘要：http://tech.youzan.com/kylin-mondrian-saiku/ 阅读全文

posted @ 2016-05-24 11:27 HarkLee 阅读(515) 评论(0) 推荐(0) 编辑

【转】kylin优化

摘要：转自： http://www.bitstech.net/2016/01/04/kylin-olap/ http://www.csdn.net/article/2015-11-27/2826343 http://tech.youzan.com/kylin-mondrian-saiku/ Apache 阅读全文

posted @ 2016-05-23 18:16 HarkLee 阅读(3604) 评论(0) 推荐(0) 编辑

Hue中给BI分配的权限

摘要：请保留hive的查询权限。这个权限并不是分配给某个账户，而是分配给用户组。然后再将用户分入用户组中。阅读全文

posted @ 2016-05-19 16:18 HarkLee 阅读(1942) 评论(0) 推荐(0) 编辑

【转】apache kafka技术分享系列(目录索引)

摘要：转自： http://blog.csdn.net/lizhitao/article/details/39499283 估计大神会不定期更新，所以还是访问这个链接看最新的目录list比较好 apache kafka中国社区QQ群:162272557 目前QQ群1，2，3已满，请加群4 中国社区QQ群2 阅读全文

posted @ 2016-05-19 10:10 HarkLee 阅读(722) 评论(0) 推荐(0) 编辑

【原创】CDM添加新磁盘，然后负载

摘要：hdfs快占满了，所以为节点中添加新的磁盘（这块是个教训，以后用新的节点时，磁盘需要一次性插满，省得后续再添加磁盘了）注意：添加磁盘时，不仅仅datanode在配置时添加节点，nodemanager也同时需要添加的。然后需要在CHM中修改配置（我这边出现了一个特殊情况，有一台机器硬盘口坏了，所阅读全文

posted @ 2016-05-19 09:09 HarkLee 阅读(338) 评论(0) 推荐(0) 编辑

【转】Hadoop集群添加磁盘步骤

摘要：转自：http://blog.csdn.net/huyuxiang999/article/details/17691405 一、实验环境： 1、硬件：3台DELL服务器，CPU：2.27GHz*16，内存：16GB，一台为master，另外2台为slave。 2、系统：均为CentOS6.3 3、阅读全文

posted @ 2016-05-19 08:49 HarkLee 阅读(5442) 评论(0) 推荐(0) 编辑

【转】HADOOP HDFS BALANCER介绍及经验总结

摘要：转自：http://www.aboutyun.com/thread-7354-1-1.html 集群平衡介绍 Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况，比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候，将引发很多问题，比如MR程序无法很好地利用本地计算的优阅读全文

posted @ 2016-05-18 18:43 HarkLee 阅读(2124) 评论(0) 推荐(0) 编辑

HDFS机架感知功能原理（rack awareness）

摘要：转自：http://www.jianshu.com/p/372d25352d3a HDFS NameNode对文件块复制相关所有事物负责，它周期性接受来自于DataNode的HeartBeat和BlockReport信息，HDFS文件块副本的放置对于系统整体的可靠性和性能有关键性影响。一个简单但非阅读全文

posted @ 2016-05-18 18:40 HarkLee 阅读(3168) 评论(0) 推荐(0) 编辑

向hive上传数据时，中文乱码

摘要：sudo -u hive hive -e "use dataplat;load data local inpath '/home/dlht/data/test/2_times.csv' overwrite into table 2_times " 这时中文乱码解决办法是，将数据转成utf-8。。阅读全文

posted @ 2016-05-16 12:15 HarkLee 阅读(1175) 评论(0) 推荐(0) 编辑

HarkLee

打酱油

05 2016 档案

公告