大数据 - 随笔分类(第2页) - 阿牛20

如何使用字符串表示图谱关系？

摘要：知识图谱听起来很高大上，而且也应用广泛，如用于血缘关系查询，知识链展示，异动分析。而图数据库，你可以到网上搜搜，基本就是像 neo4j, janusgraph, HugeGraph，还有像阿里闭源提供的graphcompute服务... 如果有个图谱类似的需求，你会怎么办呢？一来就上真的图谱真的好吗阅读全文

posted @ 2020-10-24 22:39 阿牛20 阅读(687) 评论(0) 推荐(1) 编辑

大文件排序优化实践

摘要：在很多应用场景中，我们都会面临着排序需求，可以说是见怪不怪。我们也看过许多的排序算法：从最简单的冒泡排序、选择排序，到稍微好点的插入排序、希尔排序，再到有点理论的堆排序、快速排序，再到高级的归并排序、桶排序、基数排序。而实际工作中我们可能用到的排序有哪些呢？而且，大部分时序，相信大家都是使用一个现阅读全文

posted @ 2020-10-12 13:39 阿牛20 阅读(1828) 评论(0) 推荐(0) 编辑

关于大数据技术的一点思考

摘要：大数据技术在当下时代，已经不算是什么新鲜东西了。但绝大部分同学往往又是没机会接触大数据相关底层技术的，包括我自己。不过，俗话说没吃过猪肉还没见过猪跑吗？哈哈，今天就来说说我对大数据技术的思考吧，希望会给部分同学解开一些迷惑！ 1.什么是大数据？我们不搞虚的：大数据就是数据量比较大的场景，比如上T 阅读全文

posted @ 2020-09-28 08:47 阿牛20 阅读(964) 评论(1) 推荐(0) 编辑

Hive 简单udf入门--自然周差异计算

摘要：Hive sql与我们普通使用的sql基本差异不大，但在大数据领域往往存在很多未知的需求，所以往往都有一个支持自定义功能函数编写的口子，让用户实现其特定的需求。（这往往并非hive独有，几乎都是标配）而要写udf往往也是比较简单，看几个例子，依葫芦画瓢总能搞几个。今天我们就来简单写一个“自然周差阅读全文

posted @ 2020-07-31 13:15 阿牛20 阅读(1409) 评论(0) 推荐(0) 编辑

ZooKeeper（五）：事务处理之更新数据逻辑解析

摘要：通过前些文章，我们已经完全从整体架构和数据接入方面理解了ZK的前情工作。接下来，我们就来看ZK的正式工作吧。本文以 setData /a data 这个命令作为出发点，来观察zk是如何处理来自客户端的数据更新操作的吧！首先，我们需要明确各个角色所担任的工作，然后才能更好的理解其工作流程。我们以阅读全文

posted @ 2019-11-06 19:01 阿牛20 阅读(1580) 评论(0) 推荐(0) 编辑

ZooKeeper（三）：请求处理链路的创建过程解析

摘要：我们知道，zk就是一个个处理链组成的。但是，这些处理链是在什么创建的呢？ ZooKeeper 中有三种角色的服务节点存在: Leader, Follower, Observer . 而每个服务节点的承担的任务是不一样的，所以处理任务的逻辑是不一样的。而在ZK中，则是巧妙的通过责任链模式将各自节点的阅读全文

posted @ 2019-10-25 18:54 阿牛20 阅读(1435) 评论(0) 推荐(0) 编辑

ZooKeeper（二）：多个端口监听的建立逻辑解析

摘要：ZooKeeper 作为优秀的分布系统协调组件，值得一探究竟。它的启动类主要为： 1. 单机版的zk 使用 ZooKeeperServerMain 2. 集群版的zk 使用 QuorumPeerMain 与用户端各服务端之间存在着各种通信！当然主要分为三个: 1. 客户端与zk的通信; 2. 各zk 阅读全文

posted @ 2019-10-23 18:50 阿牛20 阅读(3175) 评论(0) 推荐(0) 编辑

快速入门流处理框架Flink --实时报表场景的应用

摘要：随着业务的发展，数据量剧增，我们一些简单报表大盘类的任务，就不能简单的依赖于RDBMS了，而是依赖于数仓之类的大数据平台。数仓有着巨量数据的存储能力，但是一般都存在一定数据延迟，所以要想完全依赖数数仓来解决实时报表问题，是困难的。其实，所谓的实时报表，往简单了说就是: 对现在的一些数据进行加减乘阅读全文

posted @ 2019-08-18 10:57 阿牛20 阅读(6247) 评论(0) 推荐(4) 编辑

来！做一个分钟级业务监控系统【实战】

摘要：如何做一个实时的业务统计的监控？比如分钟级？也就是每分钟可以快速看到业务的变化趋势，及可以做一些简单的分组查询？哎，你可能说很简单了，直接从数据库 count 就可以了！你是对的。但如果不允许你使用db进行count呢？因为线上数据库资源可是很宝贵的哦，你这一count可能会给db带来灾难了。阅读全文

posted @ 2019-07-21 11:21 阿牛20 阅读(2999) 评论(0) 推荐(0) 编辑

来！自己动手实现一个loghub(或kafka)分片消费负载均衡器

摘要：一般地，像kafka之类的消息中间件，作为一个可以保持历史消息的组件，其消费模型一般是主动拉取方式。这是为了给消费者足够的自由，回滚或者前进。然而，也正是由于将消费消息的权力交给了消费者，所以，消费者往往需要承担更多的责任。比如：需要自行保存消费偏移量，以便后续可以知道从哪里继续。而当这一点处理不阅读全文

posted @ 2019-07-01 15:50 阿牛20 阅读(1941) 评论(1) 推荐(1) 编辑

Zookeeper（一）：单机模式的启动逻辑

摘要：zk用处如此之多，以至于每个地方都要你理解zk原理！请按如下操作姿势打开: 1. 打开zk的git仓库地址： https://github.com/apache/zookeeper , 确认过眼神，它就是你要找有人！ 2. 下载源码到本地，下载 ant 工具到本地，（如果还没下载的话: http: 阅读全文

posted @ 2019-03-24 16:16 阿牛20 阅读(5490) 评论(0) 推荐(0) 编辑

kafka扫盲笔记，实战入门

摘要：Kafka作为大数据时代的产物，自有其生存之道。让我们跟随扫盲班的培训，进行大致了解与使用kafka吧。（平时工作有使用不代表就知道kafka了哟） 1. kafka介绍 1.1. 拥有的能力（能干什么？）根据官网的介绍，ApacheKafka®是一个分布式流媒体平台，它主要有3种功能： 1. 发阅读全文

posted @ 2018-09-28 21:37 阿牛20 阅读(1031) 评论(0) 推荐(0) 编辑

hbase概念解析

摘要：hbase是一种nosql数据库。是一个高可靠，高性能，面向列，可伸缩，实时读取的分布式数据库。 hbase一般由行键，时间戳，列族，列，表格单元，行组成。行一般由一个行键和一个或多个具有关联关系值的列组成，存储时根据行键按字典序排列。行键命名很重要。行键是用来检索的主键，一行只能有一个行键，h 阅读全文

posted @ 2018-06-20 07:52 阿牛20 阅读(583) 评论(0) 推荐(0) 编辑

hadoop基础与实践--流程解惑

摘要：看过好多本hadoop的书，对整个过程始终存在一些疑问，今天终于搞清楚了。立个low-flag。整体架构好复杂的感觉？其实不复杂整体架构，namenode/metanode负责维护所有的元数据，datanode负责实际的物理存储，同一份数据datanode上必定多个副本，从而保证高可用。 hdf 阅读全文

posted @ 2018-06-14 07:35 阿牛20 阅读(423) 评论(0) 推荐(0) 编辑

阿牛20

我约我期，要么求变，否则忍受，水到渠成！

随笔分类 - 大数据

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

技术社区

学习网站

阅读排行榜

评论排行榜

推荐排行榜

最新评论