摘要: 1、spark是通用大数据处理框架。 2、spark快的原因,内存计算,支持有向无环图DAG,减少迭代过程中的数据落地。 3、SparkSQL: 引入新的RDD类型SchemaRDD,可以像传统数据库定义表一样定义SchemaRDD。 内存列存储:SparkSQL的表数据在内存中存储不是采用原生态的 阅读全文
posted @ 2018-05-07 09:18 海东青Lo 阅读(680) 评论(0) 推荐(0) 编辑
摘要: 1、 push:消耗MQ资源 pull:消耗消费者 (一个独立线程--kafka) 2、发布/订阅模式->传输机制push 订阅者分为两种类型:持久、临时 阅读全文
posted @ 2018-04-28 18:02 海东青Lo 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 1、关键字检索的第一步是对整个文档分词 英文 空格 中文 中文词库配合中文分词法 中文分词有IK和庖丁,直接配置就可以使用 2、lucence的开源项目 --lucence core:java编写的核心类库,提供了全文检索功能的底层API与SDK --Solr:基于lucence core开发的高性 阅读全文
posted @ 2018-04-28 18:00 海东青Lo 阅读(359) 评论(0) 推荐(0) 编辑
摘要: SpringBoot 启动时默认加载 application.properties 或 application.yml @ConfigurationProperties注解可以把properties文件转化成bean @EnableConfigurationProperties注解使@Configu 阅读全文
posted @ 2018-04-28 15:47 海东青Lo 阅读(74) 评论(0) 推荐(0) 编辑
摘要: 一、目录结构 root 存放root用户相关文件 home 存放普通用户相关文件 bin 常用命令 sbin 具有一定权限才可以使用的命令 mnt 默认挂载软驱和光驱的目录 boot 引导相关文件(系统启动) etc 配置相关文件 var 经常变化的文件(socket) usr 安装文件的默认文件夹 阅读全文
posted @ 2018-04-26 22:12 海东青Lo 阅读(84) 评论(0) 推荐(0) 编辑
摘要: Id:包含一组数字,表示查询中执行select子句或操作表的顺序。 执行顺序从大到小执行, 当id值一样的时候,执行顺序由上往下。 阅读全文
posted @ 2018-04-24 10:40 海东青Lo 阅读(352) 评论(0) 推荐(0) 编辑
摘要: 1、在Yarn中,我们把job的概念换成了application 2、container是计算机资源的抽象,实际上是一组cpu和内存资源,所有的应用都会运行在container中 applicationMaster运行在Yarn中某个应用的抽象 一个节点会运行多个container,但是一个cont 阅读全文
posted @ 2018-04-19 11:50 海东青Lo 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 1、NameNode可以有两个,一个active,一个standby 两个NameNode实时共享: JouranlNode hadoop层面,NFS操作系统层面 自动切换:zookeeper HDFS Federation HDFS联盟:多个HDFS集群 阅读全文
posted @ 2018-04-19 11:44 海东青Lo 阅读(82) 评论(0) 推荐(0) 编辑
摘要: 1、一个小集群中,每秒可以处理数以百万计的消息。 流是一个不间断的,无界的连续tuple(元组) 2、主:Nimbus 守护进程 从:Supervisor 守护进程 zookeeper协调而不传递消息 3、每一个工作进程执行一个topology子集 4、nimbus是快速失败和无状态的,所有的状态要 阅读全文
posted @ 2018-04-18 17:36 海东青Lo 阅读(104) 评论(0) 推荐(0) 编辑
摘要: erasure code是一种技术,它可以将n份原始数据,增加m份数据(用来存储erasure编码),并能通过n+m份中的任意n份数据,还原为原始数据。 定义中包含了encode和decode两个过程,将原始的n份数据变为n+m份是encode,之后这n+m份数据可存放在不同的device上,如果有 阅读全文
posted @ 2018-04-17 15:52 海东青Lo 阅读(203) 评论(0) 推荐(0) 编辑