煮酒一笑观花

2018年11月19日

摘要：集群机器的分布情况： 1.storm集群依赖于zookeeper，所以要先保证zookeeper集群的正确运行。 2. 搭建Storm集群环境 cd /export/software/ rz 上传apache-storm-1.1.1.tar.gz tar -xvf apache-storm-1.1. 阅读全文

posted @ 2018-11-19 16:25 煮酒一笑观花阅读(155) 评论(0) 推荐(0) 编辑

storm学习笔记

摘要： 1.storm简介 a：storm是一个开源免费的分布式实时计算系统，它可以轻松的处理无界的数据流。 b：storm只负责数据的计算，不负责数据的存储。 2.storm应用场景实习计算，在线机器学习，连续计算，分布式RPC，ETL等。 3.storm的核心技术组成 a：Topology(拓扑) 一阅读全文

posted @ 2018-11-19 16:15 煮酒一笑观花阅读(276) 评论(0) 推荐(0) 编辑

2018年11月16日

在指定目录下检索某一特定的字符串

摘要： /*需求：在指定文件目录下的所有文件中，检索某一特定字符串所出现的行，将这些行的内容输出到本地文件系统的输出文件夹中。这个程序假定只有第一层目录下的文件才有效，而且，假定文件都是文本文件。为了防止单个的输出文件过大，这里还加了一个文件最大行数限制当文件行数达到最大值时，便关闭此文件，创建另外的文件继阅读全文

posted @ 2018-11-16 15:08 煮酒一笑观花阅读(318) 评论(0) 推荐(0) 编辑

shell脚本采集数据

摘要：需求：上线的网站每天都会产生日志数据。假如有这样的需求：要求在凌晨24点开始操作前一天产生的日志文件，准实时上传至HDFS集群上。该如何实现？实现后能否实现周期性上传需求？如何定时？分析：HDFS SHELL: hadoop fs –put //满足上传文件，不能满足定时、周期性传入。 Linux 阅读全文

posted @ 2018-11-16 15:02 煮酒一笑观花阅读(888) 评论(0) 推荐(0) 编辑

kafka入门学习笔记

摘要： 1.kafka是一个分布式消息系统，是由scala编写，具有生产者和消费者的功能，生产者将消息推送到Kafka集群，消费者从kafka集群上拉取消息 2.kafka的特性： a.消息持久化：kafka基于文件系统来存储和缓存消息 b.高吞吐量：kafka支持数据压缩及批量发送，同时kafka将每个阅读全文

posted @ 2018-11-16 11:11 煮酒一笑观花阅读(203) 评论(0) 推荐(0) 编辑

2018年10月31日

Azkaban集群部署

摘要：工作流调度系统产生背景一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序，java程序，mapreduce程序、hive脚本等。各个任务单元之间存在时间先后依赖关系。为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；简单的任务调度：直接使用linux的阅读全文

posted @ 2018-10-31 10:42 煮酒一笑观花阅读(566) 评论(0) 推荐(0) 编辑

2018年7月4日

maven学习笔记

摘要：第一次在博客园中记录自己的学习经历。。。。有点粗糙。简单说Maven： maven是一个项目管理工具，它包含了一个项目对象模型（Project Object Model），一组标准集合，一个项目生命周期（Project Lifecycle），一个依赖管理系统（Dependency Manageme 阅读全文

posted @ 2018-07-04 23:31 煮酒一笑观花阅读(96) 评论(0) 推荐(0) 编辑

煮酒一笑观花

公告