摘要:
Storm 流式处理框架 Storm是实时的,分布式,高容错的计算系统。java+cljoure Storm常驻内存,数据在内存中处理不经过磁盘,数据通过网络传输。 底层java+cljoure构成,阿里使用java重构Storm构建Jstorm。 数据处理分类 流式处理(异步) 客户端提交数据进行 阅读全文
摘要:
kafka kafka是一个高吞吐,低延迟的分布式消息队列。 使用场景: 流式处理:spark streaming和storm处理 日志收集:Kafka各种服务的log,Kafka以接口服务统一开放给各种consumer应用(hadoop、Hbase、Solr) 消息系统:解耦conusmer与pr 阅读全文
摘要:
elasticsearch elasticsearch是lucene作为核心的实时分布式检索,底层使用倒排索引实现。 倒排索引原理 索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index) 阅读全文
摘要:
redis 分布式缓存数据库 单节点安装 tar -zxvf redis-3.2.9.tar.gz cd /opt/sxt/redis-3.2.9 yum -y install gcc tcl (依赖安装) make (在/opt/sxt/redis-3.2.9目录下) make install ( 阅读全文
摘要:
HBase HBase(Hadoop Database)基于Google的BigTable论文,依赖HDFS进行存储。适合存储大体量数据。HBase是高可靠性(数据安全)、高性能(存取效率)、面向列、可扩展的分布式存储系统,实现利用廉价设备搭建大规模集群。 HBase是面向列的存储系统。适用于存放半 阅读全文
摘要:
Hive Hive是一种用于执行离线计算的数据仓库工具,基于Hadoop的HDFS与MR实现。 Hive偏重于数据的分析和处理,使用映射关系将结构化的数据映射为表的结构。 例如:基于数据(1,zhangsan,123456,男)对应生成(id+uname+pwd+sex)的映射 Hive不会直接影响 阅读全文
摘要:
Hadoop-MapReduce MapReduce主要包括:map(映射)负责处理原始数据生成中间结果,reduce(归约)处理map输出中中间结果生成最终结果。 主要处理map与reduce的业务代码,map与reduce之间的shuffle(核心)过程,尤其关注key-value的设置 优势: 阅读全文
摘要:
hadoop 理论基础:GFS HDFS;MapReduce MapReduce;BigTable HBase 项目网址:http://hadoop.apache.org/ 下载路径:https://archive.apache.org/dist/hadoop/common/ 主要模块 Hadoop 阅读全文
摘要:
Nginx 处理高并发,单台服务器存在服务瓶颈 Nginx属于nio ,noblocking Io非阻塞式的 Apache属于Bio,Blocking IO 阻塞式的 安装部分 依赖安装:yum -y install gcc openssl-devel pcre-devel zlib-devel - 阅读全文
摘要:
linux安装与配置 安装配置 虚拟机配置1G内存,1核CPU,50G硬盘,网络地址转换(NAT,主机作为路由构建内网) 镜像文件:http://mirror.nsc.liu.se/centos-store/ 安装过程: 跳过硬件检测 设置账号密码root(123456), 硬盘分配:引导分区 /b 阅读全文
摘要:
一 文件系统 根目录结构 root root用户家目录 home 其他用户家目录 etc 系统配置目录 bin sbin 可执行二进制文件目录,sbin只有root可访问 opt 软件安装目录 usr 存放系统应用程序,/usr/local 本地管理员软件目录,用于yum安装软件 proc 内存的映 阅读全文