摘要: 作者:Syn良子 出处:https://www.cnblogs.com/cssdongl/p/9885534.html 转载请注明出处 Druid的数据摄取任务类型 Druid支持很多种类型的数据摄取任务.任务通过CURL POST的方式提交到Overlord节点然后分配给middle manage 阅读全文
posted @ 2018-10-31 20:10 Syn良子 阅读(2875) 评论(0) 推荐(0) 编辑
摘要: 作者:Syn良子 出处:https://www.cnblogs.com/cssdongl/p/9715735.html 转载请注明出处 Druid的数据采集格式 Druid可以采集非标准化的数据诸如JSON,CSV或者以某种分隔符隔开的TSV格式,当然还支持自定义格式.虽然大部分的文档使用JSON格 阅读全文
posted @ 2018-09-27 21:31 Syn良子 阅读(2597) 评论(0) 推荐(0) 编辑
摘要: 作者:Syn良子 出处:https://www.cnblogs.com/cssdongl/p/9703204.html 转载请注明出处 Druid的数据源和分段 Druid的数据存储在"DataSource"中,这其实类似于传统的RDBMS中的表.每一个数据源按照时间进行分段,当然你还可以选择其他属 阅读全文
posted @ 2018-09-25 20:17 Syn良子 阅读(1047) 评论(0) 推荐(0) 编辑
摘要: 作者:Syn良子 出处:https://www.cnblogs.com/cssdongl/p/9608812.html 转载请注明出处 Druid架构 Druid原本就设计为一个容易操作的面向云的多进程分布式的架构.druid的每个不同的进程类型都能够独立的扩展和配置,这会给你的集群带来最大化的自由 阅读全文
posted @ 2018-09-08 12:18 Syn良子 阅读(753) 评论(0) 推荐(0) 编辑
摘要: 作者:Syn良子 出处:https://www.cnblogs.com/cssdongl/p/9588079.html 转载请注明出处 最近在学习和使用Druid.觉得一些章节有必要按照自己的理解翻译一下并分享出来,翻译不到位的地方欢迎指正. Druid是什么? Druid是一个为大规模数据集上进行 阅读全文
posted @ 2018-09-04 19:53 Syn良子 阅读(1848) 评论(0) 推荐(0) 编辑
摘要: 最近由于工作上和生活上的一些事儿好久没来博客园了,但是写博客的习惯还是得坚持,新的一年需要更加努力,困知勉行,终身学习,每天都保持空杯心态.废话不说,写一些最近使用到的Presto SQL和Hive SQL的体会和对比. 一.JSON处理对比 Hive select get_json_object( 阅读全文
posted @ 2018-01-31 19:30 Syn良子 阅读(21299) 评论(0) 推荐(3) 编辑
摘要: 作者:Syn良子 出处: "http://www.cnblogs.com/cssdongl/p/7449682.html" 转载请注明出处 最近在折腾pyspark的HbaseConverters,由于资料太少折腾了好一会儿才明白,特此分享给大家. 问题背景 最近在使用pyspark写hbase的过 阅读全文
posted @ 2017-08-29 19:07 Syn良子 阅读(3299) 评论(4) 推荐(0) 编辑
摘要: 作者:Syn良子 出处: "http://www.cnblogs.com/cssdongl/p/7347167.html" 转载请注明出处 记录自己最近抽空折腾虚拟机环境时用spark2.0的pyspark访问Hbase1.2时遇到的问题及解决过程. 连接准备 快速用pyspark访问Hbase中的 阅读全文
posted @ 2017-08-11 17:49 Syn良子 阅读(3764) 评论(0) 推荐(0) 编辑
摘要: 作者:Syn良子 出处: "http://www.cnblogs.com/cssdongl/p/7340681.html" 转载请注明出处 最近抽空折腾自己的虚拟机环境时启动伪分布式Hbase集群一直失败,使用的Hbase版本为Apache Hbase1.0,解决过程如下 发现问题 经过仔细观察日志 阅读全文
posted @ 2017-08-10 18:14 Syn良子 阅读(570) 评论(0) 推荐(0) 编辑
摘要: 作者:Syn良子 出处: "http://www.cnblogs.com/cssdongl/p/7098138.html" 转载请注明出处 我们知道Hbase的Scan经常需要用到filter来过滤表中的数据返回给客户端,单个的filter还好说,如果有多个呢,那么就需要使用FilterList,它 阅读全文
posted @ 2017-06-30 12:01 Syn良子 阅读(7086) 评论(0) 推荐(1) 编辑
摘要: 作者:Syn良子 出处: "http://www.cnblogs.com/cssdongl/p/6898227.html" 转载请注明出处 最近由于想调研下低延迟的数据查询框架,那么基于SQL on Hbase的Phoenix是必不可少的,先熟悉下它的编译和部署并记录下过程 Phoenix编译 由于 阅读全文
posted @ 2017-05-24 15:56 Syn良子 阅读(1730) 评论(1) 推荐(0) 编辑
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/6857891.html 转载请注明出处 简单的说就是可以通过Hive SQL直接对hbase的表进行读写操作,对了,这里可能有人会问,为啥要这么集成呢,有什么场景呢。那我举个场景栗子,比如我们可能会用Hba 阅读全文
posted @ 2017-05-15 19:22 Syn良子 阅读(3648) 评论(0) 推荐(0) 编辑
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/6831884.html 转载请注明出处 虽然之前已经用过很多次hive的分区表,但是还是找时间快速回顾总结一下加深理解. 举个栗子,基本需求就是Hive有一张非常详细的原子数据表original_devic 阅读全文
posted @ 2017-05-09 18:05 Syn良子 阅读(29597) 评论(0) 推荐(1) 编辑
摘要: 转自:http://www.cnblogs.com/pengdonglin137/p/3315124.html used=total-free 即 total=used+free 实际内存占用:used-buffers-cached 即 total-free-buffers-cached 实际可用内 阅读全文
posted @ 2017-05-04 11:19 Syn良子 阅读(9292) 评论(2) 推荐(0) 编辑
摘要: 转自:http://blog.csdn.net/lsshlsw/article/details/49155087 一. 运维 二. 运行错误 missing output location 当前的配置为每个executor使用1core,5GRAM,启动了20个executor spark.exec 阅读全文
posted @ 2017-04-27 16:27 Syn良子 阅读(2559) 评论(0) 推荐(0) 编辑
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 需要用python的脚本来快速检测一个文件内的二个时间日期字符串的大小,其实实现很简单,首先一些基础的日期格式化知识如下 然后需要了解python中time,datetime,字符串时间之间的转换 阅读全文
posted @ 2017-04-18 17:53 Syn良子 阅读(42512) 评论(0) 推荐(3) 编辑
摘要: 摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 这几天想cat一下某天的HDFS文件内容的时候突然报Cannot obtain block length for LocatedBlock异常,get也一样,这样无法访问hdfs文件的问题 阅读全文
posted @ 2017-04-12 17:57 Syn良子 阅读(10937) 评论(1) 推荐(1) 编辑
摘要: 转自:http://blog.csdn.net/androidlushangderen/article/details/52850349 HDFS租约的概念 每个客户端用户持有一个租约。 每个租约内部包含有一个租约持有者信息,还有此租约对应的文件Id列表,表示当前租约持有者正在写这些文件Id对应的文 阅读全文
posted @ 2017-04-12 16:38 Syn良子 阅读(5763) 评论(1) 推荐(0) 编辑
摘要: 转自:http://blog.csdn.net/iamlaosong/article/details/54728393 最近要编个shell脚本处理数据,需要检测数据文件是否存在,文件名中包含日期,所以需要生成最近几天的日期,以便检测文件是否存在,看下面的脚本中如何使用双引号、单引号、反引号: $ 阅读全文
posted @ 2017-04-07 17:55 Syn良子 阅读(6872) 评论(0) 推荐(1) 编辑
摘要: 摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 快速mark一下这个命令细节,免得以后使用又忘记了 大家都知道可以用echo来输出内容到文件,比如 echo “hello,word”>> temp.txt 那么我现在想把hadoop或者 阅读全文
posted @ 2017-04-07 17:46 Syn良子 阅读(21678) 评论(0) 推荐(2) 编辑