大数据 - 随笔分类 - 张叫兽的技术研究院

Spark Shuffle

摘要：Shuffle基本流程 spark shuffle从总体来讲分成两部分，shuffle write和shuffle reader，如下图所示，看到这里，就明白了为什么spark性能优化的时候建议宁可broadcast也不要shuffle，broadcast好歹还是内存操作，网络上大一点压力（每个节点阅读全文

posted @ 2020-01-19 08:17 张叫兽的技术研究院阅读(958) 评论(0) 推荐(0) 编辑

Spark优化 – 基础篇

摘要：大数据调优总体方向：CPU，内存以及IO（Disk，Network）三个方面来进行。对于多次使用的数据（RDD/DataFrame)，通过cache()或者persis()来进行缓存，避免每一次都从数据源获取（减少磁盘IO）；系统资源优化如下参数可以进行调优（可以参见附录中介绍的spark和y 阅读全文

posted @ 2020-01-14 18:30 张叫兽的技术研究院阅读(535) 评论(0) 推荐(0) 编辑

HBase的文件合并（minor/major compact）

摘要：Minor Compact Minor Compact是指少量HFile文件按照Minor Compact规则进行合并；它的正常流程是这样的，探测到有新的文件刷进来（比如因为memstore的flush，当然可以直接写入HFile而跳过memstore，比如Bulk写入），此时Region Serv 阅读全文

posted @ 2020-01-05 09:51 张叫兽的技术研究院阅读(2924) 评论(0) 推荐(0) 编辑

HBase的列式存储

摘要：为什么要选择列式存储行式存储和列式存储主要是在物理存储的选择上面，这里主要是选择从实体的完整性角度进行存储，还是从实体特征维度进行存储，行式存储就是以实体为单位进行存储，在物理存储上，一个实体（的特征属性）紧挨着另外一个实体；列式存储就是从实体特征维度进行存储，通常是以列为物理存储单元，这种存储模阅读全文

posted @ 2020-01-05 08:09 张叫兽的技术研究院阅读(1539) 评论(0) 推荐(0) 编辑

分布式事务 - 2/ 3阶段式提交

摘要：2/3阶段提交解决的问题是分布式数据操作一致性问题，即在不同节点间数据多个操作的原子性问题，比如在A节点的数据增加和B节点数据的减少需要原子操作。解决方案：在各个分布式节点之上引入TC（Trancaction Coordinator），由TC进行最终commit操作协调，只有各个节点的预操作（pr 阅读全文

posted @ 2019-12-26 18:32 张叫兽的技术研究院阅读(277) 评论(0) 推荐(0) 编辑

kafka的ACK

摘要：在谈及到Kafka的ACK之前我们要向讲一下Kafka的复制机制，为了保证Kafka的高性能，设计了分区，一个topic的分区是的数据可以分散，然后可以让更多的消费者来进行消费；避免单一分区，只能由一个消费者消费，造成串行处理，多分区本质还是实现了并行消费的机制；其实但凡是分片，很大程度上都是为了实阅读全文

posted @ 2019-05-26 22:32 张叫兽的技术研究院阅读(978) 评论(0) 推荐(0) 编辑

Elasticsearch价值体系

摘要：查询使用scroll，而不是offset 阅读全文

posted @ 2019-04-25 09:00 张叫兽的技术研究院阅读(160) 评论(0) 推荐(0) 编辑

Flink神秘工具lib

摘要：Flink里面有一个神坑，叫做FI坑。其实只是使用Fi的时候被暴露出来。但是，杀不死你的，终将使你更加强大。 Flink集群有一个lib文件件，里面比较happy，可以放各种jar；这样，client端在提交的时候就不需要把全jar打成一个肥肥，只需要增量的把包放到client端lib文件夹里面即可阅读全文

posted @ 2019-04-17 20:16 张叫兽的技术研究院阅读(903) 评论(0) 推荐(0) 编辑

Flink

摘要：1. Flink表接受是基于dataset、datastream的；首先需要注册一个dataset，然后通过sql去查询这个dataset，返回的即使基于dataset查询结果，这个查询结构就是Flink的表；除此之外，FLink支持很多外部的数据源，比如Csv文件等都可以映射到表操作； 2. Fl 阅读全文

posted @ 2019-03-29 22:12 张叫兽的技术研究院阅读(126) 评论(0) 推荐(0) 编辑

ElasticSearch的lowlevelApi和低级别API

摘要：之前开发使用的其实都是lowLevel的api，所谓lowlevelapi就是操作ES的json字符串要自己去写；所谓highlevel的api就是指将查询的json字符串给对象化，创建一个SearchSourceBuilder 对象，设定from，size等属性来实现；而且现在higlevel a 阅读全文

posted @ 2019-03-10 21:08 张叫兽的技术研究院阅读(933) 评论(0) 推荐(0) 编辑

exactly-once和kafka

摘要：Exactly-Once的概念是指"恰好一次"，简单讲就是同一个数据只会被处理一次，应用有机质保证不会重复处理同一条数据（如果数据因为因为网络业务异常被发送多次）；Exactly-Onece实现了操作的等幂性，如果在kafka处理数据全流程保证历史/重新处理数据结果都是一致的。 Kafka处理数据的阅读全文

posted @ 2019-03-10 21:02 张叫兽的技术研究院阅读(947) 评论(0) 推荐(0) 编辑

ES查询之刨根问底

摘要：昨天有一个需求，就是想要根据某个网关url做过滤，获取其下面所有的上下文nginx日志；如果直接"query":"https://XXX/YYY/ZZZ"发现有问题，啥也查不出来，后来仁杰指出来需要使用“”括起来，果然这样就变成了前后匹配的模糊查询了。但是继续，我发现如果我指定了字段"query": 阅读全文

posted @ 2019-03-03 15:02 张叫兽的技术研究院阅读(460) 评论(0) 推荐(0) 编辑

安装ES

摘要：ES环境搭建 1.创建用户组2.目录授权3.安装jdk4.vi /etc/sysctl.confvm.map_maxcount=65535vm.swappiness=5 sysctl -p 生效5.修改配置文件5.1 node.master/node.client： master节点，node.ma 阅读全文

posted @ 2019-03-03 14:43 张叫兽的技术研究院阅读(123) 评论(0) 推荐(0) 编辑

到底什么是ES索引？

摘要：你会发现，其实在ES里面，索引扮演的角色其实并不是存储，而是“索引”，看起来有点傻，但是其实我之前一直理解索引是存储，其实从命名上可以看出来，索引其实是分片的索引，分片的字典，记录了每个分片的位置，索引范围；当需要查询的时候，可以定位到对应的分片来进行数据操作；最后进行汇总。所以index本质作用就阅读全文

posted @ 2019-01-01 18:50 张叫兽的技术研究院阅读(5588) 评论(0) 推荐(0) 编辑

ElasticSearch story（二）

摘要：调优一个问题，碰到了一个坎：大家看一下下面两个字符串： 2018-10-16 18:01:34.000 abcdewfrwfe 2018-10-16 18:01:50.123 testAmily012 我在使用term进行查询的时候：是可以检索到数据的，但是：却返回数据数据为0. 百思不得其解啊阅读全文

posted @ 2018-10-16 22:12 张叫兽的技术研究院阅读(158) 评论(0) 推荐(0) 编辑

Elastic Story（一）

摘要：关于_all 当索引一个文档的时候，Elasticsearch 取出所有字段的值拼接成一个大的字符串，作为 _all 字段进行索引。例如，当索引这个文档时： { "tweet": "However did I manage before Elasticsearch?", "date": "2014- 阅读全文

posted @ 2018-10-16 11:28 张叫兽的技术研究院阅读(172) 评论(0) 推荐(0) 编辑

Logstash的grok以及Ruby

摘要：logstash的grok插件的用途是提取字段，将非格式的内容进行格式化，匹配字段如下： client: 55.3.244.1 method: GET request: /index.html bytes: 15824 duration: 0.043 更加震撼的是logstash内置很多的正则表达阅读全文

posted @ 2018-09-09 18:47 张叫兽的技术研究院阅读(4670) 评论(0) 推荐(0) 编辑

ElasticSearch（七）管理ES

摘要：发现，故障修复以及恢复在发现节点，主要是使用ES的zen模块来进行发现，发现的目的就是加入集群，zen的发现有两种模式分别是单播和组播，单播是指配置好了要发现的节点IP，组播则是指不配置具体IP，向局域网广撒网，寻找同名节点，并组成集群。为了避免在组成集群的时候导致"脑裂"情况，即因为网络通信原阅读全文

posted @ 2018-09-04 07:57 张叫兽的技术研究院阅读(1447) 评论(0) 推荐(0) 编辑

摘要：相似度算法涉及到了ES的底层，首先讲一下ES的底层核心，相似度模型，ES的查询和传统的数据库查询最大的差别就在相似度查询（之前讲过，索引存储的最大差别就是讲非结构化数据转化为结构化），ES里面会给文档的相似度打分。那么这种打分的算法就是ES的查询的核心，默认的算法是TF/IDF，除了这个默认的算法之外还有很多其他的算法，罗列一下，当你发现现在的查询速度以及效率不满足需要的时候，可以考虑一下下面的... 阅读全文

posted @ 2018-09-01 11:46 张叫兽的技术研究院阅读(948) 评论(0) 推荐(0) 编辑

Elasticsearch（四）优化用户体验

摘要：改正用户拼写 Term suggester：词项匹配建议；可以通过wiki的插件来下载wiki上面的单词以及短语，来作为你的拼写提示基础仓库； Phrase suggester：n-gram算法，短语匹配； Complete suggester：prefix匹配；内置了FST（Finite Stat 阅读全文

posted @ 2018-08-26 23:16 张叫兽的技术研究院阅读(644) 评论(0) 推荐(0) 编辑

下士闻道

随笔分类 - 大数据

Spark Shuffle

Spark优化 – 基础篇

HBase的文件合并（minor/major compact）

HBase的列式存储

分布式事务 - 2/ 3阶段式提交

kafka的ACK

Elasticsearch价值体系

Flink神秘工具lib

Flink

ElasticSearch的lowlevelApi和低级别API

exactly-once和kafka

ES查询之刨根问底

安装ES

到底什么是ES索引？

ElasticSearch story（二）

Elastic Story（一）

Logstash的grok以及Ruby

ElasticSearch（七）管理ES

ElasticSearch（六）底层索引控制

Elasticsearch（四）优化用户体验

导航

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论