随笔分类 -  大数据

1 2 3 4 5 ··· 7 下一页

Spark Shuffle
摘要:Shuffle基本流程 spark shuffle从总体来讲分成两部分,shuffle write和shuffle reader,如下图所示,看到这里,就明白了为什么spark性能优化的时候建议宁可broadcast也不要shuffle,broadcast好歹还是内存操作,网络上大一点压力(每个节点 阅读全文

posted @ 2020-01-19 08:17 张叫兽的技术研究院 阅读(958) 评论(0) 推荐(0) 编辑

Spark优化 – 基础篇
摘要:大数据调优总体方向:CPU,内存以及IO(Disk,Network)三个方面来进行。 对于多次使用的数据(RDD/DataFrame),通过cache()或者persis()来进行缓存,避免每一次都从数据源获取(减少磁盘IO); 系统资源优化 如下参数可以进行调优(可以参见附录中介绍的spark和y 阅读全文

posted @ 2020-01-14 18:30 张叫兽的技术研究院 阅读(535) 评论(0) 推荐(0) 编辑

HBase的文件合并(minor/major compact)
摘要:Minor Compact Minor Compact是指少量HFile文件按照Minor Compact规则进行合并;它的正常流程是这样的,探测到有新的文件刷进来(比如因为memstore的flush,当然可以直接写入HFile而跳过memstore,比如Bulk写入),此时Region Serv 阅读全文

posted @ 2020-01-05 09:51 张叫兽的技术研究院 阅读(2924) 评论(0) 推荐(0) 编辑

HBase的列式存储
摘要:为什么要选择列式存储 行式存储和列式存储主要是在物理存储的选择上面,这里主要是选择从实体的完整性角度进行存储,还是从实体特征维度进行存储,行式存储就是以实体为单位进行存储,在物理存储上,一个实体(的特征属性)紧挨着另外一个实体;列式存储就是从实体特征维度进行存储,通常是以列为物理存储单元,这种存储模 阅读全文

posted @ 2020-01-05 08:09 张叫兽的技术研究院 阅读(1539) 评论(0) 推荐(0) 编辑

分布式事务 - 2/ 3阶段式提交
摘要:2/3阶段提交解决的问题是分布式数据操作一致性问题,即在不同节点间数据多个操作的原子性问题,比如在A节点的数据增加和B节点数据的减少需要原子操作。 解决方案:在各个分布式节点之上引入TC(Trancaction Coordinator),由TC进行最终commit操作协调,只有各个节点的预操作(pr 阅读全文

posted @ 2019-12-26 18:32 张叫兽的技术研究院 阅读(277) 评论(0) 推荐(0) 编辑

kafka的ACK
摘要:在谈及到Kafka的ACK之前我们要向讲一下Kafka的复制机制,为了保证Kafka的高性能,设计了分区,一个topic的分区是的数据可以分散,然后可以让更多的消费者来进行消费;避免单一分区,只能由一个消费者消费,造成串行处理,多分区本质还是实现了并行消费的机制;其实但凡是分片,很大程度上都是为了实 阅读全文

posted @ 2019-05-26 22:32 张叫兽的技术研究院 阅读(978) 评论(0) 推荐(0) 编辑

Elasticsearch价值体系
摘要:查询使用scroll,而不是offset 阅读全文

posted @ 2019-04-25 09:00 张叫兽的技术研究院 阅读(160) 评论(0) 推荐(0) 编辑

Flink神秘工具lib
摘要:Flink里面有一个神坑,叫做FI坑。其实只是使用Fi的时候被暴露出来。但是,杀不死你的,终将使你更加强大。 Flink集群有一个lib文件件,里面比较happy,可以放各种jar;这样,client端在提交的时候就不需要把全jar打成一个肥肥,只需要增量的把包放到client端lib文件夹里面即可 阅读全文

posted @ 2019-04-17 20:16 张叫兽的技术研究院 阅读(903) 评论(0) 推荐(0) 编辑

Flink
摘要:1. Flink表接受是基于dataset、datastream的;首先需要注册一个dataset,然后通过sql去查询这个dataset,返回的即使基于dataset查询结果,这个查询结构就是Flink的表;除此之外,FLink支持很多外部的数据源,比如Csv文件等都可以映射到表操作; 2. Fl 阅读全文

posted @ 2019-03-29 22:12 张叫兽的技术研究院 阅读(126) 评论(0) 推荐(0) 编辑

ElasticSearch的lowlevelApi和低级别API
摘要:之前开发使用的其实都是lowLevel的api,所谓lowlevelapi就是操作ES的json字符串要自己去写;所谓highlevel的api就是指将查询的json字符串给对象化,创建一个SearchSourceBuilder 对象,设定from,size等属性来实现;而且现在higlevel a 阅读全文

posted @ 2019-03-10 21:08 张叫兽的技术研究院 阅读(933) 评论(0) 推荐(0) 编辑

exactly-once和kafka
摘要:Exactly-Once的概念是指"恰好一次",简单讲就是同一个数据只会被处理一次,应用有机质保证不会重复处理同一条数据(如果数据因为因为网络业务异常被发送多次);Exactly-Onece实现了操作的等幂性,如果在kafka处理数据全流程保证历史/重新处理数据结果都是一致的。 Kafka处理数据的 阅读全文

posted @ 2019-03-10 21:02 张叫兽的技术研究院 阅读(947) 评论(0) 推荐(0) 编辑

ES查询之刨根问底
摘要:昨天有一个需求,就是想要根据某个网关url做过滤,获取其下面所有的上下文nginx日志;如果直接"query":"https://XXX/YYY/ZZZ"发现有问题,啥也查不出来,后来仁杰指出来需要使用“”括起来,果然这样就变成了前后匹配的模糊查询了。但是继续,我发现如果我指定了字段"query": 阅读全文

posted @ 2019-03-03 15:02 张叫兽的技术研究院 阅读(460) 评论(0) 推荐(0) 编辑

安装ES
摘要:ES环境搭建 1.创建用户组2.目录授权3.安装jdk4.vi /etc/sysctl.confvm.map_maxcount=65535vm.swappiness=5 sysctl -p 生效5.修改配置文件5.1 node.master/node.client: master节点,node.ma 阅读全文

posted @ 2019-03-03 14:43 张叫兽的技术研究院 阅读(123) 评论(0) 推荐(0) 编辑

到底什么是ES索引?
摘要:你会发现,其实在ES里面,索引扮演的角色其实并不是存储,而是“索引”,看起来有点傻,但是其实我之前一直理解索引是存储,其实从命名上可以看出来,索引其实是分片的索引,分片的字典,记录了每个分片的位置,索引范围;当需要查询的时候,可以定位到对应的分片来进行数据操作;最后进行汇总。所以index本质作用就 阅读全文

posted @ 2019-01-01 18:50 张叫兽的技术研究院 阅读(5588) 评论(0) 推荐(0) 编辑

ElasticSearch story(二)
摘要:调优一个问题,碰到了一个坎:大家看一下下面两个字符串: 2018-10-16 18:01:34.000 abcdewfrwfe 2018-10-16 18:01:50.123 testAmily012 我在使用term进行查询的时候: 是可以检索到数据的,但是: 却返回数据数据为0. 百思不得其解啊 阅读全文

posted @ 2018-10-16 22:12 张叫兽的技术研究院 阅读(158) 评论(0) 推荐(0) 编辑

Elastic Story(一)
摘要:关于_all 当索引一个文档的时候,Elasticsearch 取出所有字段的值拼接成一个大的字符串,作为 _all 字段进行索引。例如,当索引这个文档时: { "tweet": "However did I manage before Elasticsearch?", "date": "2014- 阅读全文

posted @ 2018-10-16 11:28 张叫兽的技术研究院 阅读(172) 评论(0) 推荐(0) 编辑

Logstash的grok以及Ruby
摘要:logstash的grok插件的用途是提取字段,将非格式的内容进行格式化, 匹配字段如下: client: 55.3.244.1 method: GET request: /index.html bytes: 15824 duration: 0.043 更加震撼的是logstash内置很多的正则表达 阅读全文

posted @ 2018-09-09 18:47 张叫兽的技术研究院 阅读(4670) 评论(0) 推荐(0) 编辑

ElasticSearch(七)管理ES
摘要:发现,故障修复以及恢复 在发现节点,主要是使用ES的zen模块来进行发现,发现的目的就是加入集群,zen的发现有两种模式分别是单播和组播,单播是指配置好了要发现的节点IP,组播则是指不配置具体IP,向局域网广撒网,寻找同名节点,并组成集群。 为了避免在组成集群的时候导致"脑裂"情况,即因为网络通信原 阅读全文

posted @ 2018-09-04 07:57 张叫兽的技术研究院 阅读(1447) 评论(0) 推荐(0) 编辑

ElasticSearch(六)底层索引控制
摘要:相似度算法 涉及到了ES的底层,首先讲一下ES的底层核心,相似度模型,ES的查询和传统的数据库查询最大的差别就在相似度查询(之前讲过,索引存储的最大差别就是讲非结构化数据转化为结构化),ES里面会给文档的相似度打分。那么这种打分的算法就是ES的查询的核心,默认的算法是TF/IDF,除了这个默认的算法之外还有很多其他的算法,罗列一下,当你发现现在的查询速度以及效率不满足需要的时候,可以考虑一下下面的... 阅读全文

posted @ 2018-09-01 11:46 张叫兽的技术研究院 阅读(948) 评论(0) 推荐(0) 编辑

Elasticsearch(四)优化用户体验
摘要:改正用户拼写 Term suggester:词项匹配建议;可以通过wiki的插件来下载wiki上面的单词以及短语,来作为你的拼写提示基础仓库; Phrase suggester:n-gram算法,短语匹配; Complete suggester:prefix匹配;内置了FST(Finite Stat 阅读全文

posted @ 2018-08-26 23:16 张叫兽的技术研究院 阅读(644) 评论(0) 推荐(0) 编辑

1 2 3 4 5 ··· 7 下一页

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示