随笔分类 - 大数据
摘要:import java.io.IOException import java.util import org.apache.http.client.ClientProtocolException import org.apache.http.client.entity.UrlEncodedFormE
阅读全文
摘要: 数据接入 数据的接入可以通过将数据实时写入Kafka进行接入,不管是直接的写入还是通过oracle和mysql的实时接入方式,比如oracle的ogg,mysql的binlog ogg Golden Gate(简称OGG)提供异构环境下交易数据的实时捕捉、变换、投递。 通过OGG可以实时的将or
阅读全文
摘要:根据最新的统计显示,仅在过去的两年中,当今世界上90%的数据都是在新产生的,每天创建2.5万亿字节的数据,并且随着新设备,传感器和技术的出现,数据增长速度可能会进一步加快。 从技术上讲,这意味着我们的大数据处理将变得更加复杂且更具挑战性。而且,许多用例(例如,移动应用广告,欺诈检测,出租车预订,病人
阅读全文
摘要: 本章我们开始正式搭建大数据环境,目标是构建一个稳定的可以运维监控的大数据环境。我们将采用Ambari搭建底层的Hadoop环境,使用原生的方式搭建Flink,Druid,Superset等实时计算环境。使用大数据构建工具与原生安装相结合的方式,共同完成大数据环境的安装。 Ambari搭建底层大数
阅读全文
摘要:用户画像标签体系 用户画像的核心在于给用户“打标签”,每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,例如年龄、性别、兴趣偏好等,不同的标签通过结构化的数据体系整合,就可与组合出不同的用户画像。 梳理标签体系是实现用户画像过程中最基础、也是最核心的工作,后续的建模、数据仓库搭
阅读全文
摘要: 在《什么的是用户画像》一文中,我们已经知道用户画像对于企业的巨大意义,当然也有着非常大实时难度。那么在用户画像的系统架构中都有哪些难度和重点要考虑的问题呢? 挑战 大数据 随着互联网的崛起和智能手机的兴起,以及物联网带来的各种可穿戴设备,我们能获取的每一个用户的数据量是非常巨大的,而用户量本
阅读全文
摘要:用户画像 简介 用户画像,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。 用户画像最初是在电商领域得到应用的,在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。 还
阅读全文
摘要:KafkaCenter是什么 KafkaCenter是一个针对Kafka的一站式,解决方案。用于Kafka集群的维护与管理,生产者和消费者的监控,以及Kafka部分生态组件的使用。 对于Kafka的平台化,一直缺少一个成熟的解决方案,之前比较流行的kafka监控方案,如kafka-manager提供
阅读全文
摘要:本文介绍Druid查询数据的方式,首先我们保证数据已经成功载入。 Druid查询基于HTTP,Druid提供了查询视图,并对结果进行了格式化。 Druid提供了三种查询方式,SQL,原生JSON,CURL。 一、SQL查询 我们用wiki的数据为例 查询10条最多的页面编辑 SELECT page,
阅读全文
摘要:Netflix(Nasdaq NFLX),也就是网飞公司,成立于1997年,是一家在线影片[租赁]提供商,主要提供Netflix超大数量的[DVD]并免费递送,总部位于美国加利福尼亚州洛斯盖图。1999年开始订阅服务。2009年,该公司可提供多达10万部DVD电影,并有1千万的订户。2007年2月2
阅读全文
摘要:随着诸如Apache Flink,Apache Spark,Apache Storm之类的开源框架以及诸如Google Dataflow之类的云框架的增多,创建实时数据处理作业变得非常容易。这些API定义明确,并且诸如Map-Reduce之类的标准概念在所有框架中都遵循几乎相似的语义。 但是,直到今
阅读全文
摘要:DataHub 首先,阿里云也有一款名为DataHub的产品,是一个流式处理平台,本文所述DataHub与其无关。 数据治理是大佬们最近谈的一个火热的话题。不管国家层面,还是企业层面现在对这个问题是越来越重视。数据治理要解决数据质量,数据管理,数据资产,数据安全等等。而数据治理的关键就在于元数据管理
阅读全文
摘要:本文选自《实时流计算系统设计与实现》 文末有惊喜 状态管理是流计算系统的核心问题之一。在实现流数据的关联操作时,流计算系统需要先将窗口内的数据临时保存起来,然后在窗口结束时,再对窗口内的数据做关联计算。在实现时间维度聚合特征计算和关联图谱特征计算时,更是需要创建大量的寄存用于记录聚合的结果。而CEP
阅读全文
摘要:实时数据分析门槛较高,我们如何用极少的开发工作就完成实时数据平台的搭建,做出炫酷的图表呢? 如何快速的搭建实时数据分析平台,首先我们需要实时数据的接入端,我们选择高扩展性、容错性、速度极快的消息系统Kafka,而实时数据仓库,由于 Druid提供了非常方便快捷配置方式,如果不想编写负责的Flink和
阅读全文
摘要:Apache Druid本质就是一个分布式支持实时数据分析的数据存储系统。 能够快速的实现查询与数据分析,高可用,高扩展能力。 距离上一次更新刚过了二十多天,距离0.17版本刚过了三个多月,Druid再次迎来重大更新,Druid也越来越强大了。 Apache Druid 0.18.0 本次更新了 4
阅读全文
摘要:近日Kafka发布了最新版本 2.5.0,增加了很多新功能: 下载地址:https://kafka.apache.org/downloads#2.5.0 对TLS 1.3的支持(默认为1.2) 引入用于 Kafka Streams 的 Co-groups 用于 Kafka Consumer 的增量
阅读全文
摘要:作为全球新冠疫情数据的实时统计的权威,约翰斯—霍普金斯大学的实时数据一直是大家实时关注的,也是各大媒体的主要数据来源。在今天早上的相当一段长的时间,霍普金斯大学的全球疫情分布大屏中显示,全球确诊人数已经突破200万。 有图有真相 随后相关媒体也进行了转发,不过这个数据明显波动太大,随后该网站也修改了
阅读全文
摘要:为什么是Scala 虽然在大数据领域Java的使用更普及,Python也有后来居上的势头,但Scala一直有着不可动摇的地位。我们熟悉的Spark,Kafka,Flink都是由Scala完成了其核心代码的开发。 所以掌握Scala不仅可以学习大数据组件的源码,而且会极大的提升大数据开发的效率。 这也
阅读全文
摘要:霍普金斯大学的全球疫情分布图 根据约翰斯·霍普金斯大学的最新数据显示,截止北京时间4月5号9时,全球累计报告确诊病例已达 134万+,死亡74000+ 。 在霍普金斯大学的全球疫情分布图中,非常直观的呈现了全球疫情的分布情况,数据也非常的实时准确。最近一段时间约翰斯·霍普金斯大学发布的数据也经常出现
阅读全文
摘要:近300页实用干货总结,帮你解决 Flink 实战应用难题!《Apache Flink电子书合辑》收录来自bilibili、美团点评、小米、OPPO、快手、Lyft、Netflix等一线大厂实时计算平台及实时数仓实践案例,更有来自阿里巴巴及Apache Flink核心贡献者们一线实战经验总结。 页面
阅读全文