摘要: SparkStreaming SparkStreaming是一种微批处理,准实时的流式框架。数据来源包括:Kafka, Flume,TCP sockets,Twitter,ZeroMQ等 SparkStreaming与storm的区别: SparkStreaming微批处理数据,storm按条处理数 阅读全文
posted @ 2019-11-01 09:02 小布大佬 阅读(390) 评论(0) 推荐(0) 编辑
摘要: SparkSQL采用Spark on Hive模式,hive只负责数据存储,Spark负责对sql命令解析执行。 SparkSQL基于Dataset实现,Dataset是一个分布式数据容器,Dataset中同时存储原始数据和元数据(schema) 阅读全文
posted @ 2019-11-01 09:01 小布大佬 阅读(796) 评论(0) 推荐(0) 编辑
摘要: spark 阅读全文
posted @ 2019-11-01 08:56 小布大佬 阅读(280) 评论(0) 推荐(0) 编辑
摘要: Storm 流式处理框架 Storm是实时的,分布式,高容错的计算系统。java+cljoure Storm常驻内存,数据在内存中处理不经过磁盘,数据通过网络传输。 底层java+cljoure构成,阿里使用java重构Storm构建Jstorm。 数据处理分类 流式处理(异步) 客户端提交数据进行 阅读全文
posted @ 2019-10-19 09:55 小布大佬 阅读(202) 评论(0) 推荐(0) 编辑
摘要: kafka kafka是一个高吞吐,低延迟的分布式消息队列。 使用场景: 流式处理:spark streaming和storm处理 日志收集:Kafka各种服务的log,Kafka以接口服务统一开放给各种consumer应用(hadoop、Hbase、Solr) 消息系统:解耦conusmer与pr 阅读全文
posted @ 2019-10-19 09:54 小布大佬 阅读(282) 评论(0) 推荐(0) 编辑
摘要: redis 分布式缓存数据库 单节点安装 tar -zxvf redis-3.2.9.tar.gz cd /opt/sxt/redis-3.2.9 yum -y install gcc tcl (依赖安装) make (在/opt/sxt/redis-3.2.9目录下) make install ( 阅读全文
posted @ 2019-10-19 09:52 小布大佬 阅读(328) 评论(0) 推荐(0) 编辑
摘要: elasticsearch elasticsearch是lucene作为核心的实时分布式检索,底层使用倒排索引实现。 倒排索引原理 索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index) 阅读全文
posted @ 2019-10-19 09:52 小布大佬 阅读(968) 评论(0) 推荐(0) 编辑
摘要: Hive Hive是一种用于执行离线计算的数据仓库工具,基于Hadoop的HDFS与MR实现。 Hive偏重于数据的分析和处理,使用映射关系将结构化的数据映射为表的结构。 例如:基于数据(1,zhangsan,123456,男)对应生成(id+uname+pwd+sex)的映射 Hive不会直接影响 阅读全文
posted @ 2019-10-19 09:51 小布大佬 阅读(220) 评论(0) 推荐(0) 编辑
摘要: HBase HBase(Hadoop Database)基于Google的BigTable论文,依赖HDFS进行存储。适合存储大体量数据。HBase是高可靠性(数据安全)、高性能(存取效率)、面向列、可扩展的分布式存储系统,实现利用廉价设备搭建大规模集群。 HBase是面向列的存储系统。适用于存放半 阅读全文
posted @ 2019-10-19 09:51 小布大佬 阅读(166) 评论(0) 推荐(0) 编辑
摘要: Hadoop-MapReduce MapReduce主要包括:map(映射)负责处理原始数据生成中间结果,reduce(归约)处理map输出中中间结果生成最终结果。 主要处理map与reduce的业务代码,map与reduce之间的shuffle(核心)过程,尤其关注key-value的设置 优势: 阅读全文
posted @ 2019-10-19 09:50 小布大佬 阅读(196) 评论(0) 推荐(0) 编辑