摘要: 1 功能说明 设计一个topology,来实现对文档里面的单词出现的频率进行统计。整个topology分为三个部分: SentenceSpout:数据源,在已知的英文句子中,随机发送一条句子出去。 SplitBolt:负责将单行文本记录(句子)切分成单词 CountBolt:负责对单词的频率进行累加 阅读全文
posted @ 2018-01-24 15:36 IT-執念 阅读(391) 评论(0) 推荐(0) 编辑
摘要: 1 strom集群规划 Nimbus:hadoop1 zookeeper:hadoop2,hadoop3,hadoop4 supervisor:hadoop5,hadoop6,hadoop7 安装文件:apache-storm-1.0.0.tar 2 配置文件 storm.zookeeper.ser 阅读全文
posted @ 2018-01-24 15:04 IT-執念 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 1 流式计算 流式计算:数据实时产生、实时传输、实时计算、实时展示 代表技术:Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql)。 一句话总结:将源源不断产生的数据实时收集并实时计算,尽可能快的得到计算结 阅读全文
posted @ 2018-01-24 11:30 IT-執念 阅读(475) 评论(0) 推荐(0) 编辑