摘要: 在CDH上用外部Spark2.2.1 (hadoop free版本)standalone 模式安装和配置 CarbonData 一、cdh中外部spark(standalone模式安装) 1、把安装包和配置文件拷贝到其他机器 1.1复制hdfs、hive等配置文件到spark的conf目录 spar 阅读全文
posted @ 2018-09-08 19:31 double_kill 阅读(2518) 评论(0) 推荐(0) 编辑
摘要: 数据etl常用工具kettle。 1、说明: kettle-数据源配置化:是指kettle的数据源连接信息全部或者部分从配置文件中读取(如果是数据库的资源库,那么资源库也可以配置化)。 2、优点: 1、这样程序本身就和kettle的业务解绑了,开发、生产采用不同配置;每次开发完成就可以直接导入线上, 阅读全文
posted @ 2018-01-06 17:14 double_kill 阅读(4101) 评论(0) 推荐(0) 编辑
摘要: 一、大数据框架: Impala:hadoop的sql平台、支持hbase/hdfs、支持超大数据、支持多并发、sql支持好、对内存依赖比较严重。需要自己优化,并且有的语句超过内存会报错。 Spark:各种格式、各种计算(机器学习、图形计算)、可sql、可代码处理、支持scala/java/pytho 阅读全文
posted @ 2017-12-29 11:46 double_kill 阅读(4539) 评论(0) 推荐(1) 编辑
摘要: 此篇说明对应的kettle版本是6.1,实际使用时7.x应该也是一样的。 一、 kettle开发流程(规范步骤,防止出错) (一) Kettle设置检查 如果不加一下配置项,数据转换后中文会出现乱码,很难处理。 本地连接资源库:配置项 defaultFetchSize 500 useCursorFe 阅读全文
posted @ 2017-12-28 12:34 double_kill 阅读(2674) 评论(0) 推荐(3) 编辑
摘要: win10下搭建PostgreSQL 参考: https://blog.csdn.net/chineseboytom/article/details/78868199 3、设置环境变量(cmd): setx PGHOME E:\PostgreSQL\10 setx PGHOST 192.168.10 阅读全文
posted @ 2018-12-24 16:41 double_kill 阅读(2997) 评论(0) 推荐(0) 编辑
摘要: Compaction会从一个region的一个store中选择一些hfile文件进行合并。合并说来原理很简单,先从这些待合并的数据文件中读出KeyValues,再按照由小到大排列后写入一个新的文件中。之后,这个新生成的文件就会取代之前待合并的所有文件对外提供服务。HBase根据合并规模将Compac 阅读全文
posted @ 2018-11-05 13:47 double_kill 阅读(474) 评论(0) 推荐(0) 编辑
摘要: hadoop集群 动态添加或删除节点 在运行中的ambari hadoop集中中动态添加或删除节点 1. 下线hdfs节点 1) 下线datanode namenode节点上dfs.exclude文件,看配置文件怎么配置的,里每行添加一个服务器名,如我要下线server7,server8,serve 阅读全文
posted @ 2018-05-13 18:30 double_kill 阅读(4049) 评论(0) 推荐(0) 编辑
摘要: 增删节点 数据迁移 一、所有事情开始之前,先要备份好cloudera manager的数据库,以及hadoop集群中的一些组件带的数据库。这里保存了很多元数据,像hive这种丢了很麻烦的。 二、如果需要换nameNode的存储目录 1、备份nameNode原始数据 cp -r /ddhome/dfs 阅读全文
posted @ 2018-05-13 18:29 double_kill 阅读(2250) 评论(0) 推荐(0) 编辑
摘要: 一.org.apache.spark.shuffle.FetchFailedException 1.问题描述 这种问题一般发生在有大量shuffle操作的时候,task不断的failed,然后又重执行,一直循环下去,非常的耗时。 2.报错提示 (1) missing output location 阅读全文
posted @ 2018-05-09 09:09 double_kill 阅读(37500) 评论(0) 推荐(2) 编辑
摘要: 用python执行sql来验证数据是否准时导入了目标库 目前业务当中有很多场景是从其他厂商那里抽取数据到我们自己的数据库。 这样就会出现数据没有同步过来的问题。有时候是我们自己同步任务失败,有时候是厂商的数据没有即时生成。 为防止这种情况对后续数据处理带来不良影响,所以写了一个定时任务去查看数据源数 阅读全文
posted @ 2018-04-23 09:26 double_kill 阅读(481) 评论(0) 推荐(0) 编辑
摘要: kylin2.3版本启用jdbc数据源(可以直接通过sql生成hive表,省去手动导数据到hive,并建hive表的麻烦) 说明: jdbc数据源,本质上还是hive数据源。 由于数据库做大表关联方面性能还是不行。所以kylin的默认数据源仍然是hive,我觉得是非常合理的。 对应jdbc数据源,其 阅读全文
posted @ 2018-04-22 22:28 double_kill 阅读(1048) 评论(0) 推荐(0) 编辑
摘要: 一、参考的博客 phoenix的基本安装和使用,功能介绍等 https://www.cnblogs.com/kekukekro/p/6339587.html phoenix全局索引和本地索引 的详细对比和测试 https://blog.csdn.net/dante_003/article/detai 阅读全文
posted @ 2018-04-12 15:30 double_kill 阅读(2708) 评论(0) 推荐(0) 编辑
摘要: 0、进入系统管理->系统设置,然后进行下列设置 1、配置管理员邮件帐号,需要和后面的邮件发送者一致。否则可能会发送不成功 2、配置基础的邮件发送的配置 3、配置邮件扩展配置--用来自定义邮件格式等 这里需要注意的是采用这个方式,定义的邮件服务器等配置要和上面的邮件普通配置一致。 4、在每个需要监控失 阅读全文
posted @ 2018-04-10 11:24 double_kill 阅读(4686) 评论(0) 推荐(0) 编辑