2018 年 5月随笔档案 - harrychinese

SpringBoot系列: Eclipse+Maven环境准备

摘要：这个链接比我写得更全面, http://tengj.top/2018/01/01/maven/ 20190115补充: maven 的一些插件 maven-checkstyle-plugin 检查代码规范的插件jacoco-maven-plugin 测试覆盖率maven-surefire-repor 阅读全文

posted @ 2018-05-29 22:43 harrychinese 阅读(776) 评论(0) 推荐(0) 编辑

Vertica系列:Vertica和Hadoop的互操作性

posted @ 2018-05-23 21:58 harrychinese 阅读(3679) 评论(0) 推荐(0) 编辑

Vertica系列: 自动生成Identity 字段值的方法

摘要：参考在 vertica 中有三种定义 identity 字段的方法, 分别是使用或或 . 简单对比: AUTO_INCREMENT 同 SQL Server 的概念一样, sequence 和 Oracle 的概念是一样. AUTO_INCREMENT 或 IDENTITY 字段都是直接在表定阅读全文

posted @ 2018-05-23 21:47 harrychinese 阅读(1142) 评论(0) 推荐(0) 编辑

Vertica系列: Vertica DB连接负载均衡

摘要：背景谈到负载均衡, 对于数据库集群需要区分几个概念: 1. 运算的负载均衡, Vertica 本身是 MPP 数据库, SQL 操作自动会利用多台机器来加快处理速度. 2. 数据库连接的负载均衡, Vertica 和 Teradata 一样都是无主节点的架构, 这种架构允许客户端连接任意一个节点, 阅读全文

posted @ 2018-05-23 21:31 harrychinese 阅读(1594) 评论(0) 推荐(0) 编辑

vertica系列:数据的导入导出

摘要：本文仅涉及 Vertica 导入导出本地文件, 以及两个 Vertica 集群相互导出, 不涉及 Vertica 和 hdfs/Hive 导入导出和互操作. copy 数据导入工具 copy 命令无疑是最常用的导入工具了, 它是Vertica的bulk copy工具, 性能非常好. 可以直接从文本文阅读全文

posted @ 2018-05-23 21:26 harrychinese 阅读(4371) 评论(0) 推荐(0) 编辑

数据库索引的原理

摘要：三、数据库索引的原理在整个过程中，最容易称为瓶颈点的是数据的读写，往往意味着要顺序或者随机读写磁盘，而读写磁盘的速度往往是比较慢的。如果加快这个过程呢？相信大家都猜到了就是建立索引。为什么索引能够加快这个过程呢？相信大家都逛过美食城，里面众多家餐馆琳琅满目，如果你不着急呢，肚子不饿，对搜索的阅读全文

posted @ 2018-05-23 12:38 harrychinese 阅读(989) 评论(0) 推荐(0) 编辑

转两个数仓建模文章

摘要：本文转自下面两个文章: 洋码头技术公众号的<<洋码头数据仓库实践>> 随身云技术团队的 <<大数据环境数据仓库&维度建模>> 在转载之前, 先说明我认为比较合理的数仓分层: 有关ODS 层: ODS层存在的意义已经被大量证明, 加上一个ODS层, 在技术层面可以保障业务系统稳定, 同时ODS也是数据阅读全文

posted @ 2018-05-22 23:03 harrychinese 阅读(2158) 评论(0) 推荐(0) 编辑

再推荐几本好书

摘要：三字经开头就讲, 教之道，贵以专, 我很早就意识到我最大的问题, 那就是没有做到专, 贪念太重, 自身才智不足以支撑太广的涉猎, 知道问题归知道, 犹如抽烟上瘾的人, 明知道吸烟有害, 但仍找抽不误. 从系统研发/数据平台/研发体系都是一把抓, Delphi/C#/Java/Python都花过不少时阅读全文

posted @ 2018-05-18 22:25 harrychinese 阅读(372) 评论(0) 推荐(0) 编辑

vertica系列:解锁table

摘要：Vertica 表发生死锁后, 通过下面3个查询即可解锁. --步骤1: 找到被锁表的 transaction_idselect transaction_id, t.* from v_monitor.locks t; --步骤2:根据 transaction_id 获得 session_id, 这一阅读全文

posted @ 2018-05-18 12:43 harrychinese 阅读(1946) 评论(0) 推荐(1) 编辑

Kettle系列: Kettle并行执行Trans后的合并问题

摘要：我们在作业开发中为了处理效率, 经常需要并行执行一些trans, 等它们执行完毕后, 需要执行另外一些trans, 从流程上也就是分支+汇合. 粗看起来很简单, Kettle中对接一下这些组件就搞定了, 效果如下: 这是一个错误的设计, 如果这么简单没有必要写在博客备忘了. 它的执行效果是: 只要有阅读全文

posted @ 2018-05-18 12:32 harrychinese 阅读(1441) 评论(0) 推荐(0) 编辑

Kettle系列: kettle标准化trans模板

摘要：主控trans + sub trans 模式针对一个具体的处理任务(比如增量加载一个表), 我认为应该最好是使用两个trans来完成这个任务,分别是主控trans 和sub trans, 其中主控trans负责流程控制(包括依赖检查+增量区间设定+异常报警), sub trans仅负责数据转换, 阅读全文

posted @ 2018-05-12 22:23 harrychinese 阅读(1308) 评论(0) 推荐(0) 编辑

Vertica系列: 表的分段和分区

摘要：Vertica 有两个数据分布的概念, segmentation 和 partition, 至少有下面几个区别: 1.目的方面:segmentation 解决各节点数据倾斜问题, 适用于木桶原理, 数据量大的那个节点将会拖慢整个查询. partition 主要解决的是数据删除和空间回收问题. 列式数阅读全文

posted @ 2018-05-10 19:01 harrychinese 阅读(2189) 评论(0) 推荐(0) 编辑

harrychinese

05 2018 档案

公告

搜索

常用链接

最新随笔

我的标签

随笔档案

personal

阅读排行榜