大数据 - 随笔分类(第6页) - 独孤风

Druid 0.17 入门（3）—— 数据接入指南

摘要：在快速开始中，我们演示了接入本地示例数据方式，但Druid其实支持非常丰富的数据接入方式。比如批处理数据的接入和实时流数据的接入。本文我们将介绍这几种数据接入方式。文件数据接入：从文件中加载批处理数据从Kafka中接入流数据：从Kafka中加载流数据 Hadoop数据接入：从Hadoop中加载批阅读全文

posted @ 2020-03-17 08:57 独孤风阅读(852) 评论(0) 推荐(0) 编辑

Druid 0.17 入门（2）—— 安装与部署

摘要：在Druid快速入门其实已经简单的介绍过最简化配置的单节点部署，本文我们将详细描述Druid的多种部署方式，对于测试开发环境可以选用轻量的单机部署方式，而生产环境我们最好选用集群部署的方式，确保系统的高可用性。一、单机部署 Druid提供了一组可以参考的配置和单机部署的启动脚本。 nano-qui 阅读全文

posted @ 2020-02-17 08:57 独孤风阅读(1443) 评论(1) 推荐(2) 编辑

Flink 1.10 正式发布！——与Blink集成完成，集成Hive，K8S

摘要：Apache Flink社区宣布Flink 1.10.0正式发布！本次Release版本修复1.2K个问题，对Flink作业的整体性能和稳定性做了重大改进，同时增加了对K8S，Python的支持。这个版本标志着与Blink集成的完成，并且强化了流式SQL与Hive的集成，本文将详细介绍新功能和主阅读全文

posted @ 2020-02-13 09:37 独孤风阅读(2929) 评论(0) 推荐(0) 编辑

Druid入门（1）—— 快速入门实时分析利器-Druid_0.17

摘要：一、安装准备本次安装的版本是截止2020.1.30最新的版本0.17.0 软件要求需要**Java 8（8u92 +）**以上的版本，否则会有问题 Linux，Mac OS X或其他类似Unix的操作系统（不支持Windows）硬件要求 Druid包括一组参考配置和用于单机部署的启动脚本： n 阅读全文

posted @ 2020-02-10 09:05 独孤风阅读(1149) 评论(0) 推荐(0) 编辑

什么是Druid

摘要：一、Druid是什么 Druid 单词来源于西方古罗马的神话人物，中文常常翻译成德鲁伊。玩过魔兽世界，暗黑破坏神，Dota，炉石传说，Dota自走棋的朋友，对这个词一定不陌生。本文中所介绍的Druid是一个分布式的支持实时分析的数据存储系统。通俗一点：高性能实时分析数据库。它由美国广告技术公司M 阅读全文

posted @ 2020-02-03 09:11 独孤风阅读(4657) 评论(1) 推荐(0) 编辑

Flink入门（五）——DataSet Api编程指南

摘要：##Apache Flink Apache Flink 是一个兼顾高吞吐、低延迟、高性能的分布式处理框架。在实时计算崛起的今天，Flink正在飞速发展。由于性能的优势和兼顾批处理，流处理的特性，Flink可能正在颠覆整个大数据的生态。 DataSet API 首先要想运行Flink，我们需要下载并解阅读全文

posted @ 2020-01-06 13:55 独孤风阅读(2612) 评论(0) 推荐(1) 编辑

不仅仅是双11大屏—Flink应用场景介绍

摘要：双11大屏每年天猫双十一购物节，都会有一块巨大的实时作战大屏，展现当前的销售情况。这种炫酷的页面背后，其实有着非常强大的技术支撑，而这种场景其实就是实时报表分析。实时报表分析是近年来很多公司采用的报表统计方案之一，其中最主要的应用就是实时大屏展示。利用流式计算实时得出结果直接被推送到前端应用，阅读全文

posted @ 2020-01-03 10:36 独孤风阅读(1678) 评论(0) 推荐(0) 编辑

Kafka2.4发布——新特性介绍（附Java Api Demo代码）

摘要：新功能允许消费者从最近的副本进行获取为 Consumer Rebalance Protocol 增加对增量协同重新均衡（incremental cooperative rebalancing）的支持新增 MirrorMaker 2.0 (MM2)，新的多集群跨数据中心复制引擎引入新的 Jav 阅读全文

posted @ 2019-12-30 09:32 独孤风阅读(1917) 评论(0) 推荐(0) 编辑

Vmvare扩展虚拟机磁盘大小

摘要：Vmvare设置好虚拟机的磁盘大小之后，发现磁盘空间不够了，这个时候怎么扩展磁盘的大小呢？首先，在确保虚拟机关闭的情况下，右键设置，选择硬盘，扩展，这样就可以增加磁盘的大小。但是由于未进行分区和磁盘挂载的设置，我们启动虚拟机以后并不能使用增加的磁盘空间，这个时候怎么办呢？有两种办法先用root 阅读全文

posted @ 2019-12-27 10:04 独孤风阅读(1896) 评论(0) 推荐(2) 编辑

Ambari2.7.3.0添加组件

摘要：Ambari 2.7.3.0安装新组件和之前版本略有不同，本文将简述安装新组件的简单过程。前提是大家已经安装好Ambari 2.7.3.0 这时候由于有一些组件没有添加，就需要安装新的组件。首先我们登录到Ambari中。然后选择左下角 Stack and Versions 在这个页面可以看到我阅读全文

posted @ 2019-12-26 09:27 独孤风阅读(976) 评论(0) 推荐(0) 编辑

Flink入门（四）——编程模型

摘要：flink是一款开源的大数据流式处理框架，他可以同时批处理和流处理，具有容错性、高吞吐、低延迟等优势，本文简述flink的编程模型。数据集类型：无穷数据集：无穷的持续集成的数据集合有界数据集：有限不会改变的数据集合常见的无穷数据集有：用户与客户端的实时交互数据应用实时产生的日志金融市场阅读全文

posted @ 2019-12-16 11:00 独孤风阅读(1584) 评论(0) 推荐(1) 编辑

Flink入门（三）——环境与部署

摘要：flink是一款开源的大数据流式处理框架，他可以同时批处理和流处理，具有容错性、高吞吐、低延迟等优势，本文简述flink在windows和linux中安装步骤，和示例程序的运行，包括本地调试环境，集群环境。另外介绍Flink的开发工程的构建。首先要想运行Flink，我们需要下载并解压Flink的二阅读全文

posted @ 2019-12-11 09:17 独孤风阅读(1497) 评论(0) 推荐(1) 编辑

Flink入门（二）——Flink架构介绍

摘要：1、基本组件栈了解Spark的朋友会发现Flink的架构和Spark是非常类似的，在整个软件架构体系中，同样遵循着分层的架构设计理念，在降低系统耦合度的同时，也为上层用户构建Flink应用提供了丰富且友好的接口。 Flink分为架构分为三层，由上往下依次是API&Libraries层、Runtim 阅读全文

posted @ 2019-12-10 09:02 独孤风阅读(1859) 评论(0) 推荐(0) 编辑

「漏洞预警」Apache Flink 任意 Jar 包上传导致远程代码执行漏洞复现

摘要：漏洞描述 Apache Flink是一个用于分布式流和批处理数据的开放源码平台。Flink的核心是一个流数据流引擎，它为数据流上的分布式计算提供数据分发、通信和容错功能。Flink在流引擎之上构建批处理，覆盖本地迭代支持、托管内存和程序优化。近日有安全研究人员发现apache flink允许上传任意阅读全文

posted @ 2019-11-26 09:25 独孤风阅读(1154) 评论(0) 推荐(0) 编辑

数据治理的王者——Apache Atlas

摘要：一、Atlas是什么？在当今大数据的应用越来越广泛的情况下，数据治理一直是企业面临的巨大问题。大部分公司只是单纯的对数据进行了处理，而数据的血缘，分类等等却很难实现，市场上也急需要一个专注于数据治理的技术框架，这时Atlas应运而生。 Atlas官网地址：https://atlas.apache 阅读全文

posted @ 2019-11-22 11:03 独孤风阅读(2967) 评论(0) 推荐(0) 编辑

Flink入门（一）——Apache Flink介绍

摘要：Apache Flink是什么？在当代数据量激增的时代，各种业务场景都有大量的业务数据产生，对于这些不断产生的数据应该如何进行有效的处理，成为当下大多数公司所面临的问题。随着雅虎对hadoop的开源，越来越多的大数据处理技术开始涌入人们的视线，例如目前比较流行的大数据处理引擎Apache Sp 阅读全文

posted @ 2019-11-18 10:20 独孤风阅读(807) 评论(0) 推荐(1) 编辑

ES入门宝典（详细截图版）

摘要：本文使用版本基于elasticsearch-6.4.0 1、什么是ES？官网： https://www.elastic.co/products/elasticsearch 中文官网：https://www.elastic.co/cn/products/elasticsearch ES是一个全文检索阅读全文

posted @ 2019-11-11 09:49 独孤风阅读(1523) 评论(0) 推荐(0) 编辑

什么是全文检索

摘要：全文检索技术被广泛的应用于搜索引擎，查询检索等领域。我们在网络上的大部分搜索服务都用到了全文检索技术。对于数据量大、数据结构不固定的数据可采用全文检索方式搜索，比如百度、Google等搜索引擎、论坛站内搜索、电商网站站内搜索等。什么是全文检索呢？先看一下百度百科的专业定义。为了能更好的理解，我阅读全文

posted @ 2019-10-21 09:47 独孤风阅读(5005) 评论(0) 推荐(2) 编辑

Hbase入门(五)——客户端（Java，Shell，Thrift，Rest，MR，WebUI）

摘要：Hbase的客户端有原生java客户端，Hbase Shell，Thrift，Rest，Mapreduce，WebUI等等。下面是这几种客户端的常见用法。一、原生Java客户端原生java客户端是hbase最主要，最高效的客户端。涵盖了增删改查等API，还实现了创建，删除，修改表等DDL操作阅读全文

posted @ 2019-10-14 10:44 独孤风阅读(1697) 评论(0) 推荐(0) 编辑

Hbase入门(四)——表结构设计-RowKey

摘要：Hbase的表结构设计与关系型数据库有很多不同，主要是Hbase有Rowkey和列族、timestamp这几个全新的概念，如何设计表结构就非常的重要。创建 Hbase就是通过表 Rowkey 列族 timestamp确定一行数据。这与关系型数据库完全不同：属性 HBase RDBMS 数据类阅读全文

posted @ 2019-10-08 10:28 独孤风阅读(1883) 评论(0) 推荐(1) 编辑

大数据流动

公众号大数据流动。追随大数据的流动，专注于大数据相关技术。相关学习交流群已经成立，欢迎加入~

随笔分类 - 大数据

公告

搜索

常用链接

我的标签

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论