随笔分类 -  大数据

hadoop,hbase,zk...
摘要:知识图谱听起来很高大上,而且也应用广泛,如用于血缘关系查询,知识链展示,异动分析。而图数据库,你可以到网上搜搜,基本就是像 neo4j, janusgraph, HugeGraph,还有像阿里闭源提供的graphcompute服务... 如果有个图谱类似的需求,你会怎么办呢?一来就上真的图谱真的好吗 阅读全文
posted @ 2020-10-24 22:39 阿牛20 阅读(687) 评论(0) 推荐(1) 编辑
摘要:在很多应用场景中,我们都会面临着排序需求,可以说是见怪不怪。我们也看过许多的排序算法:从最简单的冒泡排序、选择排序,到稍微好点的插入排序、希尔排序,再到有点理论的堆排序、快速排序,再到高级的归并排序、桶排序、基数排序。 而实际工作中我们可能用到的排序有哪些呢?而且,大部分时序,相信大家都是使用一个现 阅读全文
posted @ 2020-10-12 13:39 阿牛20 阅读(1828) 评论(0) 推荐(0) 编辑
摘要:大数据技术在当下时代,已经不算是什么新鲜东西了。但绝大部分同学往往又是没机会接触大数据相关底层技术的,包括我自己。 不过,俗话说没吃过猪肉还没见过猪跑吗?哈哈,今天就来说说我对大数据技术的思考吧,希望会给部分同学解开一些迷惑! 1.什么是大数据? 我们不搞虚的:大数据就是数据量比较大的场景,比如上T 阅读全文
posted @ 2020-09-28 08:47 阿牛20 阅读(964) 评论(1) 推荐(0) 编辑
摘要:Hive sql与我们普通使用的sql基本差异不大,但在大数据领域往往存在很多未知的需求,所以往往都有一个支持自定义功能函数编写的口子,让用户实现其特定的需求。(这往往并非hive独有,几乎都是标配) 而要写udf往往也是比较简单,看几个例子,依葫芦画瓢总能搞几个。 今天我们就来简单写一个“自然周差 阅读全文
posted @ 2020-07-31 13:15 阿牛20 阅读(1409) 评论(0) 推荐(0) 编辑
摘要:通过前些文章,我们已经完全从整体架构和数据接入方面理解了ZK的前情工作。接下来,我们就来看ZK的正式工作吧。 本文以 setData /a data 这个命令作为出发点,来观察zk是如何处理来自客户端的数据更新操作的吧! 首先,我们需要明确各个角色所担任的工作,然后才能更好的理解其工作流程。我们以 阅读全文
posted @ 2019-11-06 19:01 阿牛20 阅读(1580) 评论(0) 推荐(0) 编辑
摘要:我们知道,zk就是一个个处理链组成的。 但是,这些处理链是在什么创建的呢? ZooKeeper 中有三种角色的服务节点存在: Leader, Follower, Observer . 而每个服务节点的承担的任务是不一样的,所以处理任务的逻辑是不一样的。而在ZK中,则是巧妙的通过责任链模式将各自节点的 阅读全文
posted @ 2019-10-25 18:54 阿牛20 阅读(1435) 评论(0) 推荐(0) 编辑
摘要:ZooKeeper 作为优秀的分布系统协调组件,值得一探究竟。它的启动类主要为: 1. 单机版的zk 使用 ZooKeeperServerMain 2. 集群版的zk 使用 QuorumPeerMain 与用户端各服务端之间存在着各种通信!当然主要分为三个: 1. 客户端与zk的通信; 2. 各zk 阅读全文
posted @ 2019-10-23 18:50 阿牛20 阅读(3175) 评论(0) 推荐(0) 编辑
摘要:随着业务的发展,数据量剧增,我们一些简单报表大盘类的任务,就不能简单的依赖于RDBMS了,而是依赖于数仓之类的大数据平台。 数仓有着巨量数据的存储能力,但是一般都存在一定数据延迟,所以要想完全依赖数数仓来解决实时报表问题,是困难的。 其实,所谓的实时报表,往简单了说就是: 对现在的一些数据进行加减乘 阅读全文
posted @ 2019-08-18 10:57 阿牛20 阅读(6247) 评论(0) 推荐(4) 编辑
摘要:如何做一个实时的业务统计的监控?比如分钟级?也就是每分钟可以快速看到业务的变化趋势,及可以做一些简单的分组查询? 哎,你可能说很简单了,直接从数据库 count 就可以了! 你是对的。 但如果不允许你使用db进行count呢?因为线上数据库资源可是很宝贵的哦,你这一count可能会给db带来灾难了。 阅读全文
posted @ 2019-07-21 11:21 阿牛20 阅读(2999) 评论(0) 推荐(0) 编辑
摘要:一般地,像kafka之类的消息中间件,作为一个可以保持历史消息的组件,其消费模型一般是主动拉取方式。这是为了给消费者足够的自由,回滚或者前进。 然而,也正是由于将消费消息的权力交给了消费者,所以,消费者往往需要承担更多的责任。比如:需要自行保存消费偏移量,以便后续可以知道从哪里继续。而当这一点处理不 阅读全文
posted @ 2019-07-01 15:50 阿牛20 阅读(1941) 评论(1) 推荐(1) 编辑
摘要:zk用处如此之多,以至于每个地方都要你理解zk原理! 请按如下操作姿势打开: 1. 打开zk的git仓库地址: https://github.com/apache/zookeeper , 确认过眼神,它就是你要找有人! 2. 下载源码到本地,下载 ant 工具到本地,(如果还没下载的话: http: 阅读全文
posted @ 2019-03-24 16:16 阿牛20 阅读(5490) 评论(0) 推荐(0) 编辑
摘要:Kafka作为大数据时代的产物,自有其生存之道。让我们跟随扫盲班的培训,进行大致了解与使用kafka吧。(平时工作有使用不代表就知道kafka了哟) 1. kafka介绍 1.1. 拥有的能力(能干什么?) 根据官网的介绍,ApacheKafka®是一个分布式流媒体平台,它主要有3种功能: 1. 发 阅读全文
posted @ 2018-09-28 21:37 阿牛20 阅读(1031) 评论(0) 推荐(0) 编辑
摘要:hbase是一种nosql数据库。是一个高可靠,高性能,面向列,可伸缩,实时读取的分布式数据库。 hbase一般由行键,时间戳,列族,列,表格单元,行组成。 行一般由一个行键和一个或多个具有关联关系值的列组成,存储时根据行键按字典序排列。行键命名很重要。 行键是用来检索的主键,一行只能有一个行键,h 阅读全文
posted @ 2018-06-20 07:52 阿牛20 阅读(583) 评论(0) 推荐(0) 编辑
摘要:看过好多本hadoop的书,对整个过程始终存在一些疑问,今天终于搞清楚了。立个low-flag。 整体架构好复杂的感觉?其实不复杂 整体架构,namenode/metanode负责维护所有的元数据,datanode负责实际的物理存储,同一份数据datanode上必定多个副本,从而保证高可用。 hdf 阅读全文
posted @ 2018-06-14 07:35 阿牛20 阅读(423) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示