04 2018 档案

摘要:Impala 相关 Impala的常用端口: jdbc/ODBC 端口: 21050 impala-shell 访问端口21000 web UI地址: impalad节点(一个集群多个该类节点) http://impalad_node:25000/ impala-state节点(一个集群一个该类节点 阅读全文
posted @ 2018-04-30 12:43 harrychinese 阅读(772) 评论(0) 推荐(0) 编辑
摘要:本文详细介绍了在Kettle中使用 Kudu API将数据写入Kudu中, 从本文可以学习到:1. 如何编写一个简单的 Kettle 的 Used defined Java class.2. 如何读取Kettle 每个记录的字段. 需要注意的是 getInteger() 返回的是Long 对象; 而 阅读全文
posted @ 2018-04-30 11:11 harrychinese 阅读(2061) 评论(0) 推荐(0) 编辑
摘要:总结一下我使用到的一些比较优秀的Python package 通用包 Werkzeug itsdangerous Jinja2 Flask SQLAlchemy , 这个ORM 用的少一些 docopt, 命令行接口 python-dateutil Babel, 国际化 http://babel.p 阅读全文
posted @ 2018-04-27 19:16 harrychinese 阅读(751) 评论(0) 推荐(0) 编辑
摘要:在众多语言中, Java 生态系统发展得最好, 比如异常logging报警, 比如性能监控工具. Python其实生态也不错, 这里列出一些出色的工具. LogBook, 并结合 raven-python handler 与 sentry 集成. http://logbook.readthedocs 阅读全文
posted @ 2018-04-27 12:54 harrychinese 阅读(299) 评论(0) 推荐(0) 编辑
摘要:扩展Kettle功能, 经常使用 user defined java class 组件, 或者自己开发Java插件. 两种方式都有各自的痛点: 1. 在user defined java class 组件中写java代码, 该环境没有代码自动提示, 没有语法检查, 基本上需不断试错才能完成开发, 效 阅读全文
posted @ 2018-04-23 08:49 harrychinese 阅读(1836) 评论(0) 推荐(0) 编辑
摘要:理解 mem_limit 参数 set mem_limit=-1b #取消内存限制set mem_limit=1gb #设置单机内存上限为1GB, 注意是单机set mem_limit=1mb #设置单机内存上限为1MB, 注意是单机如果设置了 mem_limit, impala 将跳过Query内 阅读全文
posted @ 2018-04-18 12:57 harrychinese 阅读(4311) 评论(0) 推荐(0) 编辑
摘要:每个Kudu 表必须设置Pimary Key(unique), 另外Kudu表不能设置secondary index, 经过实际性能测试, 本文给出了选择Kudu主键的几个策略, 测试结果纠正了我之前的习惯认知. 简单介绍测试场景: 表中有一个unqiue字段Id, 另外还有一个日期维度字段hist 阅读全文
posted @ 2018-04-18 12:54 harrychinese 阅读(3336) 评论(0) 推荐(1) 编辑
摘要:Kettle 8 已经发布, 下载地址还不太好找, 这里记录一下: 注: 所有大型软件升级都需要谨慎, 尤其是大版本的第一个小版本都不推荐在生产环境使用. github 总是有最新版 https://github.com/pentaho/pentaho-kettle/releases PDI-CE 阅读全文
posted @ 2018-04-10 20:59 harrychinese 阅读(4564) 评论(0) 推荐(1) 编辑
摘要:Kudu+Impala很适合数据分析, 但直接使用Insert values语句往Kudu表插入数据, 效率实在不好, 测试下来insert的速度仅为80笔/秒. 原因也是显然的, Kudu本身写入效率很高, 但是Impala并没有做这方面优化, 观察下来每次Impala语句执行的overhead都 阅读全文
posted @ 2018-04-04 22:12 harrychinese 阅读(6055) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示