会员
T恤
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Syn良子
每天都保持空杯心态
博客园
首页
新随笔
联系
订阅
管理
2018年10月31日
Druid学习之路 (五)Druid的数据摄取任务类型
摘要: 作者:Syn良子 出处:https://www.cnblogs.com/cssdongl/p/9885534.html 转载请注明出处 Druid的数据摄取任务类型 Druid支持很多种类型的数据摄取任务.任务通过CURL POST的方式提交到Overlord节点然后分配给middle manage
阅读全文
posted @ 2018-10-31 20:10 Syn良子
阅读(2881)
评论(0)
推荐(0)
2018年9月27日
Druid学习之路 (四)Druid的数据采集格式
摘要: 作者:Syn良子 出处:https://www.cnblogs.com/cssdongl/p/9715735.html 转载请注明出处 Druid的数据采集格式 Druid可以采集非标准化的数据诸如JSON,CSV或者以某种分隔符隔开的TSV格式,当然还支持自定义格式.虽然大部分的文档使用JSON格
阅读全文
posted @ 2018-09-27 21:31 Syn良子
阅读(2601)
评论(0)
推荐(0)
2018年9月25日
Druid学习之路 (三)Druid的数据源和段
摘要: 作者:Syn良子 出处:https://www.cnblogs.com/cssdongl/p/9703204.html 转载请注明出处 Druid的数据源和分段 Druid的数据存储在"DataSource"中,这其实类似于传统的RDBMS中的表.每一个数据源按照时间进行分段,当然你还可以选择其他属
阅读全文
posted @ 2018-09-25 20:17 Syn良子
阅读(1051)
评论(0)
推荐(0)
2018年9月8日
Druid学习之路 (二)Druid架构
摘要: 作者:Syn良子 出处:https://www.cnblogs.com/cssdongl/p/9608812.html 转载请注明出处 Druid架构 Druid原本就设计为一个容易操作的面向云的多进程分布式的架构.druid的每个不同的进程类型都能够独立的扩展和配置,这会给你的集群带来最大化的自由
阅读全文
posted @ 2018-09-08 12:18 Syn良子
阅读(756)
评论(0)
推荐(0)
2018年9月4日
Druid学习之路 (一)Druid初识
摘要: 作者:Syn良子 出处:https://www.cnblogs.com/cssdongl/p/9588079.html 转载请注明出处 最近在学习和使用Druid.觉得一些章节有必要按照自己的理解翻译一下并分享出来,翻译不到位的地方欢迎指正. Druid是什么? Druid是一个为大规模数据集上进行
阅读全文
posted @ 2018-09-04 19:53 Syn良子
阅读(1859)
评论(0)
推荐(0)
2018年1月31日
Hive sql和Presto sql的一些对比
摘要: 最近由于工作上和生活上的一些事儿好久没来博客园了,但是写博客的习惯还是得坚持,新的一年需要更加努力,困知勉行,终身学习,每天都保持空杯心态.废话不说,写一些最近使用到的Presto SQL和Hive SQL的体会和对比. 一.JSON处理对比 Hive select get_json_object(
阅读全文
posted @ 2018-01-31 19:30 Syn良子
阅读(21336)
评论(0)
推荐(3)
2017年8月29日
Pyspark的HBaseConverters详解
摘要: 作者:Syn良子 出处: "http://www.cnblogs.com/cssdongl/p/7449682.html" 转载请注明出处 最近在折腾pyspark的HbaseConverters,由于资料太少折腾了好一会儿才明白,特此分享给大家. 问题背景 最近在使用pyspark写hbase的过
阅读全文
posted @ 2017-08-29 19:07 Syn良子
阅读(3306)
评论(4)
推荐(0)
2017年8月11日
Pyspark访问Hbase
摘要: 作者:Syn良子 出处: "http://www.cnblogs.com/cssdongl/p/7347167.html" 转载请注明出处 记录自己最近抽空折腾虚拟机环境时用spark2.0的pyspark访问Hbase1.2时遇到的问题及解决过程. 连接准备 快速用pyspark访问Hbase中的
阅读全文
posted @ 2017-08-11 17:49 Syn良子
阅读(3782)
评论(0)
推荐(0)
2017年8月10日
Hbase1.0伪分布式集群启动失败问题
摘要: 作者:Syn良子 出处: "http://www.cnblogs.com/cssdongl/p/7340681.html" 转载请注明出处 最近抽空折腾自己的虚拟机环境时启动伪分布式Hbase集群一直失败,使用的Hbase版本为Apache Hbase1.0,解决过程如下 发现问题 经过仔细观察日志
阅读全文
posted @ 2017-08-10 18:14 Syn良子
阅读(576)
评论(0)
推荐(0)
2017年6月30日
Hbase FilterList使用总结
摘要: 作者:Syn良子 出处: "http://www.cnblogs.com/cssdongl/p/7098138.html" 转载请注明出处 我们知道Hbase的Scan经常需要用到filter来过滤表中的数据返回给客户端,单个的filter还好说,如果有多个呢,那么就需要使用FilterList,它
阅读全文
posted @ 2017-06-30 12:01 Syn良子
阅读(7131)
评论(0)
推荐(1)
2017年5月24日
Phoenix编译支持CDH
摘要: 作者:Syn良子 出处: "http://www.cnblogs.com/cssdongl/p/6898227.html" 转载请注明出处 最近由于想调研下低延迟的数据查询框架,那么基于SQL on Hbase的Phoenix是必不可少的,先熟悉下它的编译和部署并记录下过程 Phoenix编译 由于
阅读全文
posted @ 2017-05-24 15:56 Syn良子
阅读(1734)
评论(1)
推荐(0)
2017年5月15日
HiveHbase集成实践
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/6857891.html 转载请注明出处 简单的说就是可以通过Hive SQL直接对hbase的表进行读写操作,对了,这里可能有人会问,为啥要这么集成呢,有什么场景呢。那我举个场景栗子,比如我们可能会用Hba
阅读全文
posted @ 2017-05-15 19:22 Syn良子
阅读(3656)
评论(0)
推荐(0)
2017年5月9日
Hive的静态分区和动态分区
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/6831884.html 转载请注明出处 虽然之前已经用过很多次hive的分区表,但是还是找时间快速回顾总结一下加深理解. 举个栗子,基本需求就是Hive有一张非常详细的原子数据表original_devic
阅读全文
posted @ 2017-05-09 18:05 Syn良子
阅读(29684)
评论(0)
推荐(1)
2017年5月4日
Linux使用free命令查看实际内存占用
摘要: 转自:http://www.cnblogs.com/pengdonglin137/p/3315124.html used=total-free 即 total=used+free 实际内存占用:used-buffers-cached 即 total-free-buffers-cached 实际可用内
阅读全文
posted @ 2017-05-04 11:19 Syn良子
阅读(9313)
评论(2)
推荐(0)
2017年4月27日
Spark排错与优化
摘要: 转自:http://blog.csdn.net/lsshlsw/article/details/49155087 一. 运维 二. 运行错误 missing output location 当前的配置为每个executor使用1core,5GRAM,启动了20个executor spark.exec
阅读全文
posted @ 2017-04-27 16:27 Syn良子
阅读(2595)
评论(0)
推荐(0)
2017年4月18日
Python日期字符串比较
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 需要用python的脚本来快速检测一个文件内的二个时间日期字符串的大小,其实实现很简单,首先一些基础的日期格式化知识如下 然后需要了解python中time,datetime,字符串时间之间的转换
阅读全文
posted @ 2017-04-18 17:53 Syn良子
阅读(42593)
评论(0)
推荐(3)
2017年4月12日
Cannot obtain block length for LocatedBlock故障分析和解决
摘要: 摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 这几天想cat一下某天的HDFS文件内容的时候突然报Cannot obtain block length for LocatedBlock异常,get也一样,这样无法访问hdfs文件的问题
阅读全文
posted @ 2017-04-12 17:57 Syn良子
阅读(11014)
评论(1)
推荐(1)
HDFS租约机制
摘要: 转自:http://blog.csdn.net/androidlushangderen/article/details/52850349 HDFS租约的概念 每个客户端用户持有一个租约。 每个租约内部包含有一个租约持有者信息,还有此租约对应的文件Id列表,表示当前租约持有者正在写这些文件Id对应的文
阅读全文
posted @ 2017-04-12 16:38 Syn良子
阅读(5815)
评论(1)
推荐(0)
2017年4月7日
shell 脚本中双引号 单引号 反引号 的区别
摘要: 转自:http://blog.csdn.net/iamlaosong/article/details/54728393 最近要编个shell脚本处理数据,需要检测数据文件是否存在,文件名中包含日期,所以需要生成最近几天的日期,以便检测文件是否存在,看下面的脚本中如何使用双引号、单引号、反引号: $
阅读全文
posted @ 2017-04-07 17:55 Syn良子
阅读(6885)
评论(0)
推荐(1)
Linux命令执行的屏幕输出内容重定向到日志文件
摘要: 摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 快速mark一下这个命令细节,免得以后使用又忘记了 大家都知道可以用echo来输出内容到文件,比如 echo “hello,word”>> temp.txt 那么我现在想把hadoop或者
阅读全文
posted @ 2017-04-07 17:46 Syn良子
阅读(21741)
评论(0)
推荐(2)
下一页
公告
点击右上角即可分享