摘要: 集群机器的分布情况: 1.storm集群依赖于zookeeper,所以要先保证zookeeper集群的正确运行。 2. 搭建Storm集群环境 cd /export/software/ rz 上传apache-storm-1.1.1.tar.gz tar -xvf apache-storm-1.1. 阅读全文
posted @ 2018-11-19 16:25 煮酒一笑观花 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 1.storm简介 a:storm是一个开源免费的分布式实时计算系统,它可以轻松的处理无界的数据流。 b:storm只负责数据的计算,不负责数据的存储。 2.storm应用场景 实习计算,在线机器学习,连续计算,分布式RPC,ETL等。 3.storm的核心技术组成 a:Topology(拓扑) 一 阅读全文
posted @ 2018-11-19 16:15 煮酒一笑观花 阅读(276) 评论(0) 推荐(0) 编辑
摘要: /*需求:在指定文件目录下的所有文件中,检索某一特定字符串所出现的行,将这些行的内容输出到本地文件系统的输出文件夹中。这个程序假定只有第一层目录下的文件才有效,而且,假定文件都是文本文件。为了防止单个的输出文件过大,这里还加了一个文件最大行数限制当文件行数达到最大值时,便关闭此文件,创建另外的文件继 阅读全文
posted @ 2018-11-16 15:08 煮酒一笑观花 阅读(318) 评论(0) 推荐(0) 编辑
摘要: 需求:上线的网站每天都会产生日志数据。假如有这样的需求:要求在凌晨24点开始操作前一天产生的日志文件,准实时上传至HDFS集群上。该如何实现?实现后能否实现周期性上传需求?如何定时? 分析:HDFS SHELL: hadoop fs –put //满足上传文件,不能满足定时、周期性传入。 Linux 阅读全文
posted @ 2018-11-16 15:02 煮酒一笑观花 阅读(888) 评论(0) 推荐(0) 编辑
摘要: 1.kafka是一个分布式消息系统,是由scala编写,具有生产者和消费者的功能,生产者将消息推送到Kafka集群,消费者从kafka集群上拉取消息 2.kafka的特性: a.消息持久化:kafka基于文件系统来存储和缓存消息 b.高吞吐量 :kafka支持数据压缩及批量发送,同时kafka将每个 阅读全文
posted @ 2018-11-16 11:11 煮酒一笑观花 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 工作流调度系统产生背景 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等。 各个任务单元之间存在时间先后依赖关系。 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;简单的任务调度: 直接使用linux的 阅读全文
posted @ 2018-10-31 10:42 煮酒一笑观花 阅读(566) 评论(0) 推荐(0) 编辑
摘要: 第一次在博客园中记录自己的学习经历。。。。有点粗糙。 简单说Maven: maven是一个项目管理工具,它包含了一个项目对象模型(Project Object Model),一组标准集合,一个项目生命周期(Project Lifecycle),一个依赖管理系统(Dependency Manageme 阅读全文
posted @ 2018-07-04 23:31 煮酒一笑观花 阅读(96) 评论(0) 推荐(0) 编辑