随笔分类 -  大数据

zookeeper,hbase,hadoop,hdfs,hive,sparck
摘要:Nested是一种嵌套文档,类似于父子文档,它可以将与主文档有关的数据进行存储,可以把它理解成一张子表,它的查询和聚合性能很好;更新性能一般。 下面是测试使用的数据结构,一个包含Nested属性的实体 @Document(indexName = "esdto", type = "esdto") @D 阅读全文
posted @ 2020-09-02 10:48 张占岭 阅读(4506) 评论(0) 推荐(0) 编辑
摘要:之前写过《es~通过ElasticsearchTemplate进行聚合操作》的文章,这一次主要写一个嵌套的聚合,例如先对sex集合,再对desc聚合,最后再对age求和,共三层嵌套。 Aggregations的部分特性类似于SQL语言中的group by,avg,sum等函数,Aggregation 阅读全文
posted @ 2020-09-01 14:00 张占岭 阅读(4158) 评论(0) 推荐(1) 编辑
摘要:HBase 的工作原理图 在上面的图中,我们需要注意几个我们之前没有提到的概念:Store、MemStore、StoreFile 以及 HFile。带着这几个新的概念,我们完整的梳理下整个 HBase 的工作流程。 首先我们需要知道 HBase 的集群是通过 Zookeeper 来进行机器之前的协调 阅读全文
posted @ 2020-08-24 17:05 张占岭 阅读(898) 评论(0) 推荐(0) 编辑
摘要:HBase的组成 在这里,让我们了解下 HBase 都有哪些模块,以及大致的工作流程。前面我们提到过 HBase 也是构建于 HDFS 之上,这是正确的,但也不是完全正确。HBase 其实也支持直接在本地文件系统之上运行,不过这样的 HBase 只能运行在一台机器上,那么对于分布式大数据的环境是没有 阅读全文
posted @ 2020-08-24 16:57 张占岭 阅读(699) 评论(0) 推荐(0) 编辑
摘要:查询条件 主要包含了以下几个 match_all match term range match match类型查询,会把查询条件进行分词,然后再查询,词条之间是or关系,按照相关性得分排序。 GET /lind/_search { "query": { "match":{ "name": "hell 阅读全文
posted @ 2020-08-24 15:58 张占岭 阅读(6582) 评论(0) 推荐(0) 编辑
摘要:对于springboot操作hbase来说,我们可以选择官方的依赖包hbase-client,但这个包的google类库很多时候会和你的项目里的google类库冲突,最后就是你的程序缺少类而无法启动,解决这个问题的方法很多,而最彻底的就是自己封装一个shade包,或者使用人家封装好的shade包,s 阅读全文
posted @ 2020-08-18 13:47 张占岭 阅读(3310) 评论(0) 推荐(0) 编辑
摘要:读和写是Hbase的两种常见的基本操作,这两种操作都会涉及到Hfile和Meta表,我们依次看看。 Hfile HFile是Hbase在HDFS中存储数据的格式,它有如下特性: 主标识是一个行健 key按照有序的方式进行存储 HFile仅仅分配给一个Region 行存储在Hfile上面,通过排好序的 阅读全文
posted @ 2020-08-18 09:07 张占岭 阅读(507) 评论(0) 推荐(0) 编辑
摘要:定义 广播消息是指生产者产生的消息将分发给所有订阅这个消息的消费者,而普通的模式是:一批消息可以被多个人共同消费,如consumer1可能消费1,3,5记录,而consumer2可能消费的是2,4,6这种模块就是共同消费模块;而今天说的是广播消息,它是指一些消息同时被推送到多个订阅者,而这些订阅者收 阅读全文
posted @ 2017-02-28 14:43 张占岭 阅读(3515) 评论(0) 推荐(0) 编辑
摘要:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的 阅读全文
posted @ 2017-02-28 11:31 张占岭 阅读(1360) 评论(0) 推荐(0) 编辑
摘要:一些概念 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase和Kafka重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。ZooKeeper的目标就是封 阅读全文
posted @ 2017-02-28 11:23 张占岭 阅读(1803) 评论(2) 推荐(0) 编辑
摘要:这个文章主要介绍简单的消费者的实现,rabbitMQ实现的消费者可以对消息服务器进行实时监听,当有消息(生产者把消息推到服务器上之后),消费者可以自动去消费它,这通常是开启一个进程去维护这个对话,它与消息服务器保持一个TCP的长连接,整个这个过程于rabbitMQ为我们提供,程序开发人员只需要实现自 阅读全文
posted @ 2017-02-28 11:06 张占岭 阅读(3041) 评论(1) 推荐(0) 编辑
摘要:RabbitMQ里的Exchange提供了四种模式,或者叫它类型,它们是fanout,direct,topic和header,其中前三种模式我们用的比较多,所有我们主要介绍前3种! Direct 任何发送到Direct Exchange的消息都会被转发到RouteKey中指定的Queue。 1.一般 阅读全文
posted @ 2017-02-27 11:59 张占岭 阅读(1256) 评论(0) 推荐(0) 编辑
摘要:学习一种技术需要先了解它,而想要学好一种技术,需要更多的了解它的组成,原理和实现机制! RabbitMQ安装介绍 RabbitMQ的一些术语 一个最纯粹的消息生产者 上面代码是一个主机为localhost的rabbitmq服务器的lind队列发送一条消息,内容为Hello Lind! 通过web管理 阅读全文
posted @ 2017-02-27 10:00 张占岭 阅读(773) 评论(0) 推荐(0) 编辑
摘要:上一讲说了rabbitmq在windows环境的部署,而今天主要说一下消息在产生后,如何去查看消息,事实上,rabbitmq为我们提供了功能强大的管理插件,我们只要开启这个插件即可,它也是一个网站,端口是15672,走Http协议的,它每秒会从消息服务器中拉取最新的消息,以便让我们看到最新的queu 阅读全文
posted @ 2017-02-24 16:36 张占岭 阅读(1983) 评论(0) 推荐(0) 编辑
摘要:想写这篇文章很久了,今天终于有时间总结一下,一个大型的系统里,消息中间件是必不可少的,它将并发环境处理的数据异步进行处理,有效的提高了系统的并发能力,有很多系统的瓶颈点都在于此,而消息中间件在这个时候就要登场了,它解决的问题也就是高并发的处理,将同步的阻塞变成异步的处理! 我们工作中经常使用到的消息 阅读全文
posted @ 2017-02-24 10:21 张占岭 阅读(1088) 评论(0) 推荐(0) 编辑