05 2018 档案

摘要:这个链接比我写得更全面, http://tengj.top/2018/01/01/maven/ 20190115补充: maven 的一些插件 maven-checkstyle-plugin 检查代码规范的插件jacoco-maven-plugin 测试覆盖率maven-surefire-repor 阅读全文
posted @ 2018-05-29 22:43 harrychinese 阅读(776) 评论(0) 推荐(0) 编辑
摘要:Vertica 8和 Hadoop 集群的互操作性已经很不错的, 但这块肯定是Vertica研发的重点, 将来可能还有较大的变动. Vertica 集群 和 Hadoop 集群的两种布局方式 |集群布局 | 描述 | 许可证 |支持Vertica for SQL on Hadoop特性 | | | 阅读全文
posted @ 2018-05-23 21:58 harrychinese 阅读(3679) 评论(0) 推荐(0) 编辑
摘要:参考 在 vertica 中有三种定义 identity 字段的方法, 分别是使用 或 或 . 简单对比: AUTO_INCREMENT 同 SQL Server 的概念一样, sequence 和 Oracle 的概念是一样. AUTO_INCREMENT 或 IDENTITY 字段都是直接在表定 阅读全文
posted @ 2018-05-23 21:47 harrychinese 阅读(1142) 评论(0) 推荐(0) 编辑
摘要:背景 谈到负载均衡, 对于数据库集群需要区分几个概念: 1. 运算的负载均衡, Vertica 本身是 MPP 数据库, SQL 操作自动会利用多台机器来加快处理速度. 2. 数据库连接的负载均衡, Vertica 和 Teradata 一样都是无主节点的架构, 这种架构允许客户端连接任意一个节点, 阅读全文
posted @ 2018-05-23 21:31 harrychinese 阅读(1594) 评论(0) 推荐(0) 编辑
摘要:本文仅涉及 Vertica 导入导出本地文件, 以及两个 Vertica 集群相互导出, 不涉及 Vertica 和 hdfs/Hive 导入导出和互操作. copy 数据导入工具 copy 命令无疑是最常用的导入工具了, 它是Vertica的bulk copy工具, 性能非常好. 可以直接从文本文 阅读全文
posted @ 2018-05-23 21:26 harrychinese 阅读(4371) 评论(0) 推荐(0) 编辑
摘要:三、数据库索引的原理 在整个过程中,最容易称为瓶颈点的是数据的读写,往往意味着要顺序或者随机读写磁盘,而读写磁盘的速度往往是比较慢的。 如果加快这个过程呢?相信大家都猜到了就是建立索引。 为什么索引能够加快这个过程呢? 相信大家都逛过美食城,里面众多家餐馆琳琅满目,如果你不着急呢,肚子不饿,对搜索的 阅读全文
posted @ 2018-05-23 12:38 harrychinese 阅读(989) 评论(0) 推荐(0) 编辑
摘要:本文转自下面两个文章: 洋码头技术公众号的<<洋码头数据仓库实践>> 随身云技术团队的 <<大数据环境数据仓库&维度建模>> 在转载之前, 先说明我认为比较合理的数仓分层: 有关ODS 层: ODS层存在的意义已经被大量证明, 加上一个ODS层, 在技术层面可以保障业务系统稳定, 同时ODS也是数据 阅读全文
posted @ 2018-05-22 23:03 harrychinese 阅读(2158) 评论(0) 推荐(0) 编辑
摘要:三字经开头就讲, 教之道,贵以专, 我很早就意识到我最大的问题, 那就是没有做到专, 贪念太重, 自身才智不足以支撑太广的涉猎, 知道问题归知道, 犹如抽烟上瘾的人, 明知道吸烟有害, 但仍找抽不误. 从系统研发/数据平台/研发体系都是一把抓, Delphi/C#/Java/Python都花过不少时 阅读全文
posted @ 2018-05-18 22:25 harrychinese 阅读(372) 评论(0) 推荐(0) 编辑
摘要:Vertica 表发生死锁后, 通过下面3个查询即可解锁. --步骤1: 找到被锁表的 transaction_idselect transaction_id, t.* from v_monitor.locks t; --步骤2:根据 transaction_id 获得 session_id, 这一 阅读全文
posted @ 2018-05-18 12:43 harrychinese 阅读(1946) 评论(0) 推荐(1) 编辑
摘要:我们在作业开发中为了处理效率, 经常需要并行执行一些trans, 等它们执行完毕后, 需要执行另外一些trans, 从流程上也就是分支+汇合. 粗看起来很简单, Kettle中对接一下这些组件就搞定了, 效果如下: 这是一个错误的设计, 如果这么简单没有必要写在博客备忘了. 它的执行效果是: 只要有 阅读全文
posted @ 2018-05-18 12:32 harrychinese 阅读(1441) 评论(0) 推荐(0) 编辑
摘要:主控trans + sub trans 模式 针对一个具体的处理任务(比如增量加载一个表), 我认为应该最好是使用两个trans来完成这个任务,分别是主控trans 和sub trans, 其中主控trans负责流程控制(包括依赖检查+增量区间设定+异常报警), sub trans仅负责数据转换, 阅读全文
posted @ 2018-05-12 22:23 harrychinese 阅读(1308) 评论(0) 推荐(0) 编辑
摘要:Vertica 有两个数据分布的概念, segmentation 和 partition, 至少有下面几个区别: 1.目的方面:segmentation 解决各节点数据倾斜问题, 适用于木桶原理, 数据量大的那个节点将会拖慢整个查询. partition 主要解决的是数据删除和空间回收问题. 列式数 阅读全文
posted @ 2018-05-10 19:01 harrychinese 阅读(2189) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示