随笔分类 -  大数据

摘要:在快速开始中,我们演示了接入本地示例数据方式,但Druid其实支持非常丰富的数据接入方式。比如批处理数据的接入和实时流数据的接入。本文我们将介绍这几种数据接入方式。 文件数据接入:从文件中加载批处理数据 从Kafka中接入流数据:从Kafka中加载流数据 Hadoop数据接入:从Hadoop中加载批 阅读全文
posted @ 2020-03-17 08:57 独孤风 阅读(852) 评论(0) 推荐(0) 编辑
摘要:在Druid快速入门其实已经简单的介绍过最简化配置的单节点部署,本文我们将详细描述Druid的多种部署方式,对于测试开发环境可以选用轻量的单机部署方式,而生产环境我们最好选用集群部署的方式,确保系统的高可用性。 一、单机部署 Druid提供了一组可以参考的配置和单机部署的启动脚本。 nano-qui 阅读全文
posted @ 2020-02-17 08:57 独孤风 阅读(1443) 评论(1) 推荐(2) 编辑
摘要:Apache Flink社区宣布Flink 1.10.0正式发布! 本次Release版本修复1.2K个问题,对Flink作业的整体性能和稳定性做了重大改进,同时增加了对K8S,Python的支持。 这个版本标志着与Blink集成的完成,并且强化了流式SQL与Hive的集成,本文将详细介绍新功能和主 阅读全文
posted @ 2020-02-13 09:37 独孤风 阅读(2929) 评论(0) 推荐(0) 编辑
摘要:一、安装准备 本次安装的版本是截止2020.1.30最新的版本0.17.0 软件要求 需要**Java 8(8u92 +)**以上的版本,否则会有问题 Linux,Mac OS X或其他类似Unix的操作系统(不支持Windows) 硬件要求 Druid包括一组参考配置和用于单机部署的启动脚本: n 阅读全文
posted @ 2020-02-10 09:05 独孤风 阅读(1149) 评论(0) 推荐(0) 编辑
摘要:一、Druid是什么 Druid 单词来源于西方古罗马的神话人物,中文常常翻译成德鲁伊。 玩过魔兽世界,暗黑破坏神,Dota,炉石传说,Dota自走棋的朋友,对这个词一定不陌生。 本文中所介绍的Druid是一个分布式的支持实时分析的数据存储系统。通俗一点:高性能实时分析数据库。它由美国广告技术公司M 阅读全文
posted @ 2020-02-03 09:11 独孤风 阅读(4657) 评论(1) 推荐(0) 编辑
摘要:##Apache Flink Apache Flink 是一个兼顾高吞吐、低延迟、高性能的分布式处理框架。在实时计算崛起的今天,Flink正在飞速发展。由于性能的优势和兼顾批处理,流处理的特性,Flink可能正在颠覆整个大数据的生态。 DataSet API 首先要想运行Flink,我们需要下载并解 阅读全文
posted @ 2020-01-06 13:55 独孤风 阅读(2612) 评论(0) 推荐(1) 编辑
摘要:双11大屏 每年天猫双十一购物节,都会有一块巨大的实时作战大屏,展现当前的销售情况。 这种炫酷的页面背后,其实有着非常强大的技术支撑,而这种场景其实就是实时报表分析。 实时报表分析是近年来很多公司采用的报表统计方案之一,其中最主要的应用就是实时大屏展示。利用流式计算实时得出结果直接被推送到前端应用, 阅读全文
posted @ 2020-01-03 10:36 独孤风 阅读(1678) 评论(0) 推荐(0) 编辑
摘要:新功能 允许消费者从最近的副本进行获取 为 Consumer Rebalance Protocol 增加对增量协同重新均衡(incremental cooperative rebalancing)的支持 新增 MirrorMaker 2.0 (MM2),新的多集群跨数据中心复制引擎 引入新的 Jav 阅读全文
posted @ 2019-12-30 09:32 独孤风 阅读(1917) 评论(0) 推荐(0) 编辑
摘要:Vmvare设置好虚拟机的磁盘大小之后,发现磁盘空间不够了,这个时候怎么扩展磁盘的大小呢? 首先,在确保虚拟机关闭的情况下,右键设置,选择硬盘,扩展,这样就可以增加磁盘的大小。 但是由于未进行分区和磁盘挂载的设置,我们启动虚拟机以后并不能使用增加的磁盘空间,这个时候怎么办呢?有两种办法 先用root 阅读全文
posted @ 2019-12-27 10:04 独孤风 阅读(1896) 评论(0) 推荐(2) 编辑
摘要:Ambari 2.7.3.0安装新组件和之前版本略有不同,本文将简述安装新组件的简单过程。 前提是大家已经安装好Ambari 2.7.3.0 这时候由于有一些组件没有添加,就需要安装新的组件。 首先我们登录到Ambari中。 然后选择左下角 Stack and Versions 在这个页面可以看到我 阅读全文
posted @ 2019-12-26 09:27 独孤风 阅读(976) 评论(0) 推荐(0) 编辑
摘要:flink是一款开源的大数据流式处理框架,他可以同时批处理和流处理,具有容错性、高吞吐、低延迟等优势,本文简述flink的编程模型。 数据集类型: 无穷数据集:无穷的持续集成的数据集合 有界数据集:有限不会改变的数据集合 常见的无穷数据集有: 用户与客户端的实时交互数据 应用实时产生的日志 金融市场 阅读全文
posted @ 2019-12-16 11:00 独孤风 阅读(1584) 评论(0) 推荐(1) 编辑
摘要:flink是一款开源的大数据流式处理框架,他可以同时批处理和流处理,具有容错性、高吞吐、低延迟等优势,本文简述flink在windows和linux中安装步骤,和示例程序的运行,包括本地调试环境,集群环境。另外介绍Flink的开发工程的构建。 首先要想运行Flink,我们需要下载并解压Flink的二 阅读全文
posted @ 2019-12-11 09:17 独孤风 阅读(1497) 评论(0) 推荐(1) 编辑
摘要:1、基本组件栈 了解Spark的朋友会发现Flink的架构和Spark是非常类似的,在整个软件架构体系中,同样遵循着分层的架构设计理念,在降低系统耦合度的同时,也为上层用户构建Flink应用提供了丰富且友好的接口。 Flink分为架构分为三层,由上往下依次是API&Libraries层、Runtim 阅读全文
posted @ 2019-12-10 09:02 独孤风 阅读(1859) 评论(0) 推荐(0) 编辑
摘要:漏洞描述 Apache Flink是一个用于分布式流和批处理数据的开放源码平台。Flink的核心是一个流数据流引擎,它为数据流上的分布式计算提供数据分发、通信和容错功能。Flink在流引擎之上构建批处理,覆盖本地迭代支持、托管内存和程序优化。近日有安全研究人员发现apache flink允许上传任意 阅读全文
posted @ 2019-11-26 09:25 独孤风 阅读(1154) 评论(0) 推荐(0) 编辑
摘要:一、Atlas是什么? 在当今大数据的应用越来越广泛的情况下,数据治理一直是企业面临的巨大问题。 大部分公司只是单纯的对数据进行了处理,而数据的血缘,分类等等却很难实现,市场上也急需要一个专注于数据治理的技术框架,这时Atlas应运而生。 Atlas官网地址:https://atlas.apache 阅读全文
posted @ 2019-11-22 11:03 独孤风 阅读(2967) 评论(0) 推荐(0) 编辑
摘要:Apache Flink是什么? ​ 在当代数据量激增的时代,各种业务场景都有大量的业务数据产生,对于这些不断产生的数据应该如何进行有效的处理,成为当下大多数公司所面临的问题。随着雅虎对hadoop的开源,越来越多的大数据处理技术开始涌入人们的视线,例如目前比较流行的大数据处理引擎Apache Sp 阅读全文
posted @ 2019-11-18 10:20 独孤风 阅读(807) 评论(0) 推荐(1) 编辑
摘要:本文使用版本基于elasticsearch-6.4.0 1、什么是ES? 官网: https://www.elastic.co/products/elasticsearch 中文官网:https://www.elastic.co/cn/products/elasticsearch ES是一个全文检索 阅读全文
posted @ 2019-11-11 09:49 独孤风 阅读(1523) 评论(0) 推荐(0) 编辑
摘要:全文检索技术被广泛的应用于搜索引擎,查询检索等领域。我们在网络上的大部分搜索服务都用到了全文检索技术。 对于数据量大、数据结构不固定的数据可采用全文检索方式搜索,比如百度、Google等搜索引擎、论坛站内搜索、电商网站站内搜索等。 什么是全文检索呢?先看一下百度百科的专业定义。 为了能更好的理解,我 阅读全文
posted @ 2019-10-21 09:47 独孤风 阅读(5005) 评论(0) 推荐(2) 编辑
摘要:Hbase的客户端有原生java客户端,Hbase Shell,Thrift,Rest,Mapreduce,WebUI等等。 下面是这几种客户端的常见用法。 一、原生Java客户端 原生java客户端是hbase最主要,最高效的客户端。 涵盖了增删改查等API,还实现了创建,删除,修改表等DDL操作 阅读全文
posted @ 2019-10-14 10:44 独孤风 阅读(1697) 评论(0) 推荐(0) 编辑
摘要:Hbase的表结构设计与关系型数据库有很多不同,主要是Hbase有Rowkey和列族、timestamp这几个全新的概念,如何设计表结构就非常的重要。 创建 Hbase就是通过 表 Rowkey 列族 timestamp确定一行数据。 这与关系型数据库完全不同: 属性 HBase RDBMS 数据类 阅读全文
posted @ 2019-10-08 10:28 独孤风 阅读(1883) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示