上一页 1 ··· 7 8 9 10 11 12 13 14 15 下一页
摘要: 每个Kudu 表必须设置Pimary Key(unique), 另外Kudu表不能设置secondary index, 经过实际性能测试, 本文给出了选择Kudu主键的几个策略, 测试结果纠正了我之前的习惯认知. 简单介绍测试场景: 表中有一个unqiue字段Id, 另外还有一个日期维度字段hist 阅读全文
posted @ 2018-04-18 12:54 harrychinese 阅读(3239) 评论(0) 推荐(1) 编辑
摘要: Kettle 8 已经发布, 下载地址还不太好找, 这里记录一下: 注: 所有大型软件升级都需要谨慎, 尤其是大版本的第一个小版本都不推荐在生产环境使用. github 总是有最新版 https://github.com/pentaho/pentaho-kettle/releases PDI-CE 阅读全文
posted @ 2018-04-10 20:59 harrychinese 阅读(4029) 评论(0) 推荐(1) 编辑
摘要: Kudu+Impala很适合数据分析, 但直接使用Insert values语句往Kudu表插入数据, 效率实在不好, 测试下来insert的速度仅为80笔/秒. 原因也是显然的, Kudu本身写入效率很高, 但是Impala并没有做这方面优化, 观察下来每次Impala语句执行的overhead都 阅读全文
posted @ 2018-04-04 22:12 harrychinese 阅读(6035) 评论(0) 推荐(0) 编辑
摘要: 转载 git 提交解决冲突 http://www.cnblogs.com/qinbb/p/5972308.html 一:git命令在提交代码前,没有pull拉最新的代码,因此再次提交出现了冲突。 error: You have not concluded your merge (MERGE_HEAD 阅读全文
posted @ 2018-03-23 12:38 harrychinese 阅读(866) 评论(0) 推荐(0) 编辑
摘要: 时间函数 --当前时间戳now()current_timestamp() --当前时间戳相对于 linux epoch 的秒数unix_timestamp() , 不带参数, 则返回 '1970-01-01 00:00:00' UTC 到现在的秒数 -- 转换到相对于 linux epoch 的秒数 阅读全文
posted @ 2018-03-21 09:01 harrychinese 阅读(49962) 评论(0) 推荐(0) 编辑
摘要: 常用字符串函数 base64decode(string str) : base64 解码.base64encode(string str) : base64 编码. fnv_hash(type v) : 对参数值做hash, 注意结果有正有负 trim(string a): 去除 leading 和 阅读全文
posted @ 2018-03-21 08:59 harrychinese 阅读(22689) 评论(0) 推荐(0) 编辑
摘要: 查看内置的函数 hive 不需要进入什么内置数据库, 即可使用 show functions 命令列出所有内置的函数. show functions; -- hive仅显示函数的名称, 没有参数和返回值信息. desc function function_name ; -- 该命令能显示函数的具体用 阅读全文
posted @ 2018-03-21 08:58 harrychinese 阅读(10091) 评论(0) 推荐(0) 编辑
摘要: Impala 特有的操作符 ILIKE 操作符, 忽略大小写的 like 操作符.REGEXP 操作符, 正则匹配操作符.RLIKE 操作符, 同 REGEXP 操作符.IREGEXP 操作符, 忽略大小写的正则匹配符.IS DISTINCT FROM 操作符, 判断前后两个表达式是否不相等, 和< 阅读全文
posted @ 2018-03-21 08:54 harrychinese 阅读(3254) 评论(0) 推荐(0) 编辑
摘要: Impala 获取hive 的 metadata Impala 通常和Hive共用同一个metadata 数据库(通常是MySQL/PostgreSQL), 所以Impala 能够读取到Hive的元数据信息. 如果Impala需要访问Hive表, 需要将Hive metadata 刷新到impala 阅读全文
posted @ 2018-03-19 09:02 harrychinese 阅读(6642) 评论(0) 推荐(1) 编辑
摘要: 使用git管理Kettle 作业的一个注意 之前 ETL 作业是用 svn 管理的, 迁移到 git 管理也算是大势所趋吧. 这里重点讲一个git管理kettle作业的注意事项: kettle 既支持基于数据库的repository也支持基于文件repository, 但我更推荐基于文件的repos 阅读全文
posted @ 2018-03-15 09:14 harrychinese 阅读(816) 评论(0) 推荐(0) 编辑
摘要: <<Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案>>, Matt Casters等著,初建军翻译<<Hadoop应用架构>> Mark Grover编著, OREILLY出版<<Hadoop权威指南>> Tom White编著, OREILLY出版<<数据仓库工具箱 --维 阅读全文
posted @ 2018-03-05 18:27 harrychinese 阅读(1796) 评论(0) 推荐(0) 编辑
摘要: Apache Kudu 支持Insert/Update/Delete 等写操作(Kudu 随机写效率也很高, 实测对一个窄表做全字段update, 其速度达到了Insert速度的88%, 而vertica的update效率比insert差很多), Kudu 表文件是列式数据格式(和Parquet格式 阅读全文
posted @ 2018-03-05 18:24 harrychinese 阅读(5230) 评论(0) 推荐(1) 编辑
摘要: 最近在整理很多SQL代码, 需要分析出每个SQL的目标表和源表各有哪些, 网上没有找到工作具, 打算写个工具. Java调研结果:1. 商业组件包 sqlparser 有试用版组件, 限制SQL少于10000字符,99天后过期2. 使用 presto 的 parser 或 druid 的 parse 阅读全文
posted @ 2018-02-22 21:45 harrychinese 阅读(2896) 评论(0) 推荐(0) 编辑
摘要: Kibana 搜索语法 Kibana 支持三种搜索语法, 分别是 Lucene query 语法, 基于 json 的 ES query语法, 以及 Kuery 语法. 前两种语法可以直接使用, Kuery语法需要先启用. Lucene query 语法学习简单快速, ES query 语法相对复杂 阅读全文
posted @ 2017-12-23 20:13 harrychinese 阅读(14661) 评论(0) 推荐(0) 编辑
摘要: ======================= 使用impala shell 登录 ======================= impala shell auth_creds_ok_in_clear l i ip_address u user_name ===================== 阅读全文
posted @ 2017-12-08 22:21 harrychinese 阅读(14040) 评论(0) 推荐(2) 编辑
摘要: Kafka 简要使用说明 参考文章 Kafka背景及架构介绍 Apache kafka 工作原理介绍 Kafka集群操作指南 kafka操作 概念: Partition, consumer group, rebalance 在使用中, 如果要保证消费 Kafka 的数据和生产数据的次序严格一致,一个 阅读全文
posted @ 2017-11-24 22:32 harrychinese 阅读(862) 评论(0) 推荐(0) 编辑
摘要: 视频课程: 1. 初建军的 【慕课大巴分享】炼数成金——深入BI - Kettle 篇 基础书:1. Kettle 3.0 用户手册, 文件名为: ETL工具Kettle用户手册(上).pdf, 出品方: 深圳市神盾信息技术有限公司, 20082. Kettle 3.2 使用说明书, 文件名为: K 阅读全文
posted @ 2017-11-10 21:29 harrychinese 阅读(1237) 评论(0) 推荐(0) 编辑
摘要: 引子 在上篇博客中重点介绍了几个建模工具的评估, 并选定了SQL Power Architect作为最终的建模工具, 在评估过程中也对Oracle Data Modeler支持Vertica做了点研究, 虽然最终放弃使用Oracle Data Modeler, 但针对Oracle Data Mode 阅读全文
posted @ 2017-10-31 21:34 harrychinese 阅读(544) 评论(0) 推荐(0) 编辑
摘要: 几款数据建模软件评估 下面是流行几款数据建模软件: 软件 特点 支持Vertica? 免费? ERWin 功能强大, 操作较繁琐 不支持Vertica 商业软件,价格高 Power Designer 功能强大,操作很灵活 不支持Vertica 商业软件,价格高 Oracle SQL develope 阅读全文
posted @ 2017-10-31 21:05 harrychinese 阅读(1840) 评论(0) 推荐(0) 编辑
摘要: 计划做一个元数据平台, 因为要包含血缘分析功能, 所以要调研一下js 拓扑图库, 候选对象主要参考知乎上的问答, javascript 有哪些适合做网络拓扑图形展示的包? https://www.zhihu.com/question/20643359 候选库 yfiles for html (收费) 阅读全文
posted @ 2017-10-13 21:12 harrychinese 阅读(6210) 评论(0) 推荐(1) 编辑
摘要: 这是一个很水的博客, 介绍搭建plsql developer 11+ Oracle 11g 开发环境. 1. 本机上安装Oracle 11g express 对于开发足够了, 300MB的下载文件, 比正式版小多了, 64bit版本.下载地址: http://www.oracle.com/techn 阅读全文
posted @ 2017-10-13 12:25 harrychinese 阅读(723) 评论(0) 推荐(0) 编辑
摘要: -- * 注意: 本文的SQL是在 2017-09-14 测试的. 所以如果取当前日期, 结果为 2017-09-14* 相关数据类型 vertica 的 Date 类型仅包含日期, 而Oracle的Date的类不仅包含日期而且包含时间. vertica 的 time, 不带日期, 仅包含小时分秒v 阅读全文
posted @ 2017-09-17 20:09 harrychinese 阅读(13595) 评论(0) 推荐(1) 编辑
摘要: 二叉树是一个重要的数据结构, 本文基于"二叉查找树"的python可视化 pybst 包, 做了一些改造, 可以支持更一般的"二叉树"可视化. 关于二叉树和二叉查找树的概念以及常用操作和算法基础, 可以看后面的参考文章. 二叉查找树可视化包 pybst pypi 有一个"二叉查找树"的可视化的pac 阅读全文
posted @ 2017-08-29 09:18 harrychinese 阅读(5338) 评论(0) 推荐(0) 编辑
摘要: 马上要重新启程了, 要从传统行业转到互联网行业. 这里先在技术层面做点总结吧. 看好和看衰的技术和产品 看好:1. SQL 语言, 如果SQL语言加到编程语言排行榜, 肯定是第一. NoSQL带来的优点不足抵消SQL缺失带来的缺点. 2. HP Vertica 数据仓库, X86硬件+MPP+列式存 阅读全文
posted @ 2017-07-29 16:18 harrychinese 阅读(661) 评论(2) 推荐(1) 编辑
摘要: 首先了解一下JWT使用过程:Token 是服务器端在验证客户端user_id/pwd 没问题后, 签发给客户端的, 作为标示该用户的一个令牌, 之后客户端就使用该令牌和服务器端进行交互. Token的根本作用:就一点: 用于服务器端标示是哪个用户的请求JWT 安全吗? 基本上很安全, 否则就没有人用 阅读全文
posted @ 2017-04-14 19:30 harrychinese 阅读(936) 评论(0) 推荐(0) 编辑
摘要: 利用 yEd 软件做元数据管理yEd Diagram editor 是我常用的 flow chart 制图工具, 另外我也用它画 ER 和 use case 图. 总结一下我喜欢 yEd 的原因:1. 出色的对齐功能2. 可随意拖动Node, 永远不用担心相连的 Edge 会自动断开连接3. 每个 阅读全文
posted @ 2017-02-10 11:51 harrychinese 阅读(1613) 评论(0) 推荐(0) 编辑
摘要: 之前有提及过jqgrid这个很不错的jquery grid, 非常适合企业MIS系统使用. 本文以一个显示学生成绩结果的页面, 来说明它的一些用法, 手写代码, 运行可能会报错, 不过思路是经过验证的. 加载theme 默认的jqgrid样式很难看, jqgrid 完全支持jquery ui的 th 阅读全文
posted @ 2017-01-23 08:52 harrychinese 阅读(495) 评论(0) 推荐(0) 编辑
摘要: 全栈的定义是什么? 如果 前端开发/后端开发/部署/运维 都能hold住就算full stack, 我现在都overflow stack了, 需求/架构/开发/项目管理/运维 都做. 单开发这块, DWBI项目也做, C/S项目也开发, B/S项目也开发, 最没有想到的是最近1年B/S的前端居然也做 阅读全文
posted @ 2016-10-21 13:40 harrychinese 阅读(411) 评论(0) 推荐(0) 编辑
摘要: Client端发送请求, 要在发送请求的时候添加HTTP Basic Authentication认证信息到请求中,有两种方法:1. 在请求头中添加Authorization: Authorization: "Basic 用户名和密码的base64字符串" 其中, 用户名和密码中间先用:号隔开, 然 阅读全文
posted @ 2016-09-01 13:51 harrychinese 阅读(710) 评论(0) 推荐(0) 编辑
摘要: Markdown 写作工具选择 候选产品 VS Code http://code.visualstudio.com 微软出品的轻量级编辑器, 免费, 和 sublime text 属于一个流派的, 配合下面几个插件 markdown 插件写. HBuilderX 这个软件写MD文档编辑体验非常棒, 阅读全文
posted @ 2016-02-04 01:21 harrychinese 阅读(2345) 评论(0) 推荐(0) 编辑
摘要: 安装并启动jupyter 安装 后, 再安装 jupyter pip install jupyter 设置环境 ipython ipython dir= override the default IPYTHONDIR directory, ~/.ipython/ by default ipython 阅读全文
posted @ 2016-02-02 17:41 harrychinese 阅读(10334) 评论(0) 推荐(0) 编辑
摘要: Hadoop 发行版的选择 大数据应用, Hadoop 仅仅是一个基础, 要用起来还需要安装很多组件, 比如Hive, Mahout, Sqoop, ZooKeeper 等等, 不得不需要考虑各个软件间兼容性问题: 版本是否兼容,组件是否有冲突,编译能否通过等, 一大堆事情. 真正要在企业中要用Ha 阅读全文
posted @ 2016-01-28 13:30 harrychinese 阅读(2350) 评论(1) 推荐(1) 编辑
摘要: 开源项目airflow的一点研究调研了一些几个调度系统, airflow 更满意一些. 花了些时间写了这个博文, 这应该是国内技术圈中最早系统性研究airflow的文章了. 转载请注明出处 http://www.cnblogs.com/harrychinese/ . ================... 阅读全文
posted @ 2016-01-05 12:58 harrychinese 阅读(16064) 评论(8) 推荐(7) 编辑
摘要: 关于 python packaging 和 package manager 以及 虚拟环境 以及 package index server python 社区终于和打包相关的事情通盘考虑了, https://packaging.python.org/guides/tool-recommendatio 阅读全文
posted @ 2016-01-04 13:07 harrychinese 阅读(3280) 评论(0) 推荐(0) 编辑
摘要: 转自 http://blog.csdn.net/thy822/article/details/8489779这篇文章, 我不能同意更多, 所以转在这里. Here is my thinking after looking at both products...First of all let me ... 阅读全文
posted @ 2015-11-13 17:39 harrychinese 阅读(496) 评论(0) 推荐(1) 编辑
摘要: 目标: 找到一个好用的数据模型设计软件, 适合数据仓库项目开发或大型数据库设计. 结果: Eclipse ERMaster 功能不算太多, 但ER建模功能都有了, 使用体验最好, 我推荐使用 Eclipse ERMaster , 另外, PowerDesigner 功能最多, 不差钱可以选这个. 下 阅读全文
posted @ 2015-10-16 21:39 harrychinese 阅读(748) 评论(0) 推荐(0) 编辑
摘要: [一种声音]择校记2 先歌颂一下十月的天气,但我们没有去旅游,而是在家里待着,保持好心情。我们要把爱画画的女儿劝去走一走,逛逛街,吃吃喝喝。她刚刚迷上滴胶,要设计图案做手工艺品、做首饰。她兴趣太广,这点让我们有些不太满意。之前她喜欢刻 印章,全套日本产刻刀,各种胶皮,自己画了好多图案来刻。又之前,她... 阅读全文
posted @ 2015-10-06 21:27 harrychinese 阅读(254) 评论(0) 推荐(0) 编辑
摘要: [一种声音]择校记 择校记九月最后一天,女儿下午一点钟放学。几乎还在凌晨,我和孩子妈妈就激动起来了,分工合作,让我早早、千万别晚到去接女儿。一晃之间,她在平和学校住宿四个星期了。从来没有单独出门机会的她,在学校里乐不思蜀,竟然一点不适应都没有。八月最后一天,是她第一天入校,第一次住宿,妈妈各种收拾,... 阅读全文
posted @ 2015-10-06 21:26 harrychinese 阅读(341) 评论(0) 推荐(0) 编辑
摘要: 如果需要考虑绘图性能开销的话, 可以考虑PyQtGraph (http://www.pyqtgraph.org/), 比matplotlib更高效, 适用于开发实时更新数据的图表,如Tick图、K线图、期权波动率曲线. matplotlib 绘图基础 绘图: matplotlib核心剖析http:/ 阅读全文
posted @ 2015-09-29 17:26 harrychinese 阅读(1864) 评论(0) 推荐(0) 编辑
摘要: 目前Teradata数据仓库的ETL作业采用ELT方式, 因为loading太重了, 需要将ETL压力转移到专门的ETL Server上. 对于ETL工具, 市场上已有很成熟的商业/开源工具, 比如Informatica的PowerCenter, IBM的Datastage, 开源的Kettle. ... 阅读全文
posted @ 2015-08-31 17:43 harrychinese 阅读(474) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 15 下一页