摘要: /*需求:在指定文件目录下的所有文件中,检索某一特定字符串所出现的行,将这些行的内容输出到本地文件系统的输出文件夹中。这个程序假定只有第一层目录下的文件才有效,而且,假定文件都是文本文件。为了防止单个的输出文件过大,这里还加了一个文件最大行数限制当文件行数达到最大值时,便关闭此文件,创建另外的文件继 阅读全文
posted @ 2018-11-16 15:08 煮酒一笑观花 阅读(318) 评论(0) 推荐(0) 编辑
摘要: 需求:上线的网站每天都会产生日志数据。假如有这样的需求:要求在凌晨24点开始操作前一天产生的日志文件,准实时上传至HDFS集群上。该如何实现?实现后能否实现周期性上传需求?如何定时? 分析:HDFS SHELL: hadoop fs –put //满足上传文件,不能满足定时、周期性传入。 Linux 阅读全文
posted @ 2018-11-16 15:02 煮酒一笑观花 阅读(888) 评论(0) 推荐(0) 编辑
摘要: 1.kafka是一个分布式消息系统,是由scala编写,具有生产者和消费者的功能,生产者将消息推送到Kafka集群,消费者从kafka集群上拉取消息 2.kafka的特性: a.消息持久化:kafka基于文件系统来存储和缓存消息 b.高吞吐量 :kafka支持数据压缩及批量发送,同时kafka将每个 阅读全文
posted @ 2018-11-16 11:11 煮酒一笑观花 阅读(203) 评论(0) 推荐(0) 编辑