09 2018 档案

摘要:在部分文件处理的kettle组件中, 你能找到一个勾选框, 名字叫 "Add filenames to result". 这是什么意思呢? Kettle有一个文件名系统, 专门储存了最近生成的或者处理过的文件名列表, 以供进一步处理, 比如移动, copy或者删除 在Job的design中你能找到几 阅读全文
posted @ 2018-09-30 11:16 爱知菜 阅读(38) 评论(0) 推荐(0) 编辑
摘要:假设你的7z 安装目录是C:\Program Files\7-Zip\, 可以使用如下的命令行压缩文件, 其中a表示add, source.csv是被压缩的文件, -p123表示密码是123, -tzip表示压缩格式是zip "C:\Program Files\7-Zip\7z.exe" a sou 阅读全文
posted @ 2018-09-29 12:02 爱知菜 阅读(67) 评论(0) 推荐(0) 编辑
摘要:关键点: 清理Kettle缓存: rm -rf /home/user/data-integration/./system/karaf/caches rm -rf /home/user/data-integration/./system/karaf/data karaf 是Kettle用于实现插件的一 阅读全文
posted @ 2018-09-28 17:39 爱知菜 阅读(133) 评论(1) 推荐(0) 编辑
摘要:转自: https://blogs.msdn.microsoft.com/pliu/2016/06/19/backup-cloudera-data-to-azure-storage/ Azure Blob Storage supports an HDFS interface which can be 阅读全文
posted @ 2018-09-28 10:07 爱知菜 阅读(22) 评论(0) 推荐(0) 编辑
摘要:locate */hive/lib/hive*jar 转自: https://blog.csdn.net/sinat_27339001/article/details/78438947 locate */hive/lib/hive*jar | grep hive-exec 阅读全文
posted @ 2018-09-27 18:33 爱知菜 阅读(15) 评论(0) 推荐(0) 编辑
摘要:用于ETL流程中, 有不支持命令行, 只能GUI交互的程序要实现自动化调用 可以参考下面这段VB. 启动了程序, 还在5秒后自动按了一下回车键. Dim Shell Set Shell=WScript.CreateObject("WScript.Shell") Shell.Run """C:\Pro 阅读全文
posted @ 2018-09-25 13:13 爱知菜 阅读(25) 评论(0) 推荐(0) 编辑
摘要:SSIS 有 script component 允许用户用C# 或者 VB来定义复杂逻辑 Pentaho Kettle 有 Javascript 允许用户用js来定义复杂逻辑 Javascript 最后必须返回一个布尔变量(如下面示例代码中的 true;), 表示成功或者失败 可用使用 parent 阅读全文
posted @ 2018-09-18 16:35 爱知菜 阅读(43) 评论(0) 推荐(0) 编辑
摘要:首先要下载Oracle的 JDBC 驱动放到 Kettle的lib目录下 然后在Transform里具体连接Oracle的时候, 注意数据库名称填的是SID. 怎么获Oracle取数据库的SID? 可以运行下面的语句, 第一句获取数据库版本, 第二句就是SID --Get Version Info 阅读全文
posted @ 2018-09-17 16:51 爱知菜 阅读(65) 评论(0) 推荐(0) 编辑
摘要:kafka基本原理概述——patition与replication分配 - 新际航 - 博客园 Kafka专用术语: Broker:消息中间件处理结点,一个Kafka节点就是一个broker,多个broker可以组成一个Kafka集群。Broker的leader叫Kafka Controller会负 阅读全文
posted @ 2018-09-17 11:35 爱知菜 阅读(11) 评论(0) 推荐(0) 编辑
摘要:参考: https://www.cnblogs.com/ITtangtang/p/7677912.html https://blog.csdn.net/yu616568/article/details/51868447 https://hortonworks.com/blog/orcfile-in- 阅读全文
posted @ 2018-09-14 17:28 爱知菜 阅读(4) 评论(0) 推荐(0) 编辑
摘要:总结来说MR是一个编程模型,你可以用MR这个编程模型自己实现MPP所做的事。 MPP则是一种SQL的计算引擎。 “MR分而治之的策略” 和 “Massively Parallel Processor类型的数据库” (即大规模并行处理数据库,典型代表 AWS Redshift 和 Teradata 以 阅读全文
posted @ 2018-09-06 16:37 爱知菜 阅读(51) 评论(0) 推荐(0) 编辑
摘要:转者注: 下文中提到两者间一个底层的显著区别是S3支持不同的存储层(冷 热 存档),不同存储层有不同的收费, 而Blob只有一个存储层 目前BLOB 也跟进了这个feature, 此外,提供一下Azure Blob的三种冗余备份模式说明: Locally Redundant Storage (LRS 阅读全文
posted @ 2018-09-06 15:04 爱知菜 阅读(91) 评论(0) 推荐(0) 编辑
摘要:在传统的关系型数据库中通过预计算预缓存来实现OLAP分析查询并不新鲜, 微软的SSAS就是典型的代表. 不过由于SSAS在国外兴起的时候, 国内的大公司还没有意识到SSAS对于企业管理和业务支持的作用, 加上SSAS的正版售价问题. 这项技术在中国国内并不是很流行. 现在大数据炙手可热, 通过预计算 阅读全文
posted @ 2018-09-05 15:32 爱知菜 阅读(24) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示