摘要:
1.创建dolphinscheduler 用户 要有sudo权限 2.部署dolphinscheduler的机器 需要相互免密 3.解压文件 cd dolphinscheduler-2.0.1/conf 因为我部署的dolphinscheduler元数据库是mysql 所以需要修改conf目录下的 阅读全文
摘要:
HDFS中自动化的failover故障转移需要增加两个新的组件:一个是Zookeeper quorum(仲裁),另一个是ZKFailoverController进程(简称ZKFC)。 Apache Zookeeper是一个高可用的服务,对于小规模数据协调,通知客户端数据变化,监控客户端失败。 自动f 阅读全文
摘要:
CREATE TABLE test_order_info (uname STRING, product STRING, age INT, city string, amount decimal); INSERT INTO test_order_info VALUES ( 'zhang3' , 'tv 阅读全文
摘要:
架构图 hdfs sinks需要注意零点漂移问题和小文件问题 数据采集案例 第一层采集:将数据从log日志文件采集到的kafka中 使用kafka channel #file-flume-kafka.conf #agent a1.sources = r1 a1.channels = c1 #a1.s 阅读全文
摘要:
题目一已知条件如下:用户表(t_user)uid int 用户 id订单表(t_order)oid int订单IDuid int用户IDotime date订单时间oamount int订单金额其中用户表和订单表是一对多的关系结果集要求:(标准SQL/HIVE 或者其他脚本)计算在2017年1月下过 阅读全文
摘要:
1.CDC工具的种类 CDC主要分为基于查询和基于Binlog两种方式,这两种之间的区别: 基于查询的CDC 基于Binlog的CDC 开源产品 Sqoop、Kafka JDBC Source Canal、Maxwell、Debezium 执行模式 Batch Streaming 是否可以捕获所有数 阅读全文
摘要:
1.什么是CDC? CDC是Change Data Capture(变更数据获取)的简称。可以基于增量日志,以极低的侵入性来完成增量数据捕获的工作。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅 阅读全文
摘要:
布隆过滤器_转载 最佳实践 常见的使用场景有,利用布隆过滤器减少磁盘 IO 或者网络请求,因为一旦一个值必定不存在的话,我们可以不用进行后续昂贵的查询请求。 另外,既然你使用布隆过滤器来加速查找和判断是否存在,那么性能很低的哈希函数不是个好选择,推荐 MurmurHash、Fnv 这些。 大Valu 阅读全文