摘要: 实时计算:flume+kafka+storm/sparkstreaming+redis/hbase离线计算:flume/ftp/sqoop(获取数据)+hdfs(存储数据)+hive(数据仓库)+SparkSQL(进行数据离线计算)+sqoop+mysql/hbase/redis(计算后的数据存储) 阅读全文
posted @ 2019-04-09 10:59 烽火连城516 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 大纲(辅助系统) 离线辅助系统 数据接入 Flume介绍 Flume组件 Flume实战案例 任务调度 调度器基础 市面上调度工具 Oozie的使用 Oozie的流程定义详解 数据导出 sqoop基础知识 sqoop实战及原理 Sqoop数据导入实战 Sqoop数据导出实战 Sqoop作业操作 Sq 阅读全文
posted @ 2019-04-09 09:28 烽火连城516 阅读(927) 评论(0) 推荐(0) 编辑
摘要: 1、kafka是什么 类JMS消息队列,结合JMS中的两种模式,可以有多个消费者主动拉取数据,在JMS中只有点对点模式才有消费者主动拉取数据。 kafka是一个生产-消费模型。 Producer:生产者,只负责数据生产,生产者的代码可以集成到任务系统中。 数据的分发策略由producer决定,默认是 阅读全文
posted @ 2019-04-09 09:00 烽火连城516 阅读(196) 评论(0) 推荐(0) 编辑