摘要:
NBI大数据可视化分析平台作为新一代自助式、探索式分析工具,在产品设计理念上始终从用户的角度出发,一直围绕简单、易用,强调交互分析为目的的新型产品。我们将数据分析的各环节(数据准备、自服务数据建模、探索式分析、权限管控)融入到系统当中,让企业有序的、安全的管理数据和分析数据。 阅读全文
摘要:
随着国内信息化的快速发展,各行各业的信息化建设程度越来越高,随之而来对信息化和智能化提出了更高的要求,从信息化的管理阶段上升到以数据驱动,数据洞察,数据价值为核心的层面,那么在现阶段我相信大数据、可视化、数据大屏等行业名词大家不再陌生,这些技术或产品也在逐步渗透到各行业中,为行业赋能。基于一个高速发展的社会组织里面,一切以快为胜,我们一直在思考如何让每一家企业采用极低的成本,极快的速度,极其简单的方式实现数据洞察,数据应用呢,这个是我今天想要和大家分享的内容。
我们先来了解一下数据分析的几个步骤:(1)数据获取;(2)数据整理;(3)数据建模;(4)数据应用;大致分为上面几个步骤,数据获取、整理(ETL)部分不是今天的重点,所以不在这里展开讲,那么数据应用需要做哪些事情呢?大致分为三个步骤: 阅读全文
摘要:
ClickHouse是一款MPP架构的列式存储数据库,并允许使用SQL查询实时生成分析报告,也是一个新的开源列式数据库。
随着业务的迅猛增长,Yandex.Metrica目前已经成为世界第三大Web流量分析平台,每天处理超过200亿个跟踪事件。能够拥有如此惊人的体量,在它背后提供支撑的ClickHouse功不可没。ClickHouse已经为Yandex.Metrica存储了超过20万亿行的数据,90%的自定义查询能够在1秒内返回,其集群规模也超过了400台服务器。虽然ClickHouse起初只是为了Yandex.Metrica而研发的,但由于它出众的性能,目前也被广泛应用于Yandex内部其他数十个产品上。 阅读全文
摘要:
今天将自己所掌握的(Jenkins+svn+ftp自动化发布asp.net项目)知识分享给大家,希望能帮组到大家: (1)先下载Jenkins并安装; (2)安装.Net所需要的插件; (3)配置插件; (4)在Jenkins中创建一个需要自动构建的项目; (5)编译项目,发布。 去Jenkins官 阅读全文
摘要:
大数据分析的本质是利用技术手段将繁杂的数据进行可视化,洞察数据背后的价值,为企业提供决策支持。 我们可以把数据分析比作做体检,体检中使用的各种设备就好比使用的各类大数据技术和工具,体检的各项器官好比各个业务板块的数据,体检的结果 报告可以清楚的知道有哪些指标合格,哪些指标不合格,这些不合格的指标是高 阅读全文
摘要:
Spark SQL中用户自定义函数,用法和Spark SQL中的内置函数类似;是saprk SQL中内置函数无法满足要求,用户根据业务需求自定义的函数。 首先定义一个UDF函数: package com.udf; import org.apache.spark.sql.api.java.UDF1; 阅读全文
摘要:
(1)sparkstreaming从kafka接入实时数据流最终实现数据可视化展示,我们先看下整体方案架构: (2)方案说明: 1)我们通过kafka与各个业务系统的数据对接,将各系统中的数据实时接到kafka; 2)通过sparkstreaming接入kafka数据流,定义时间窗口和计算窗口大小, 阅读全文
摘要:
一、滚动窗口(Tumbling Windows) 滚动窗口有固定的大小,是一种对数据进行均匀切片的划分方式。窗口之间没有重叠,也不会有间隔,是“首尾相接”的状态。滚动窗口可以基于时间定义,也可以基于数据个数定义;需要的参数只有一个,就是窗口的大小(window size)。 阅读全文
摘要:
Spark Streaming是构建在Spark Core的RDD基础之上的,与此同时Spark Streaming引入了一个新的概念:DStream(Discretized Stream,离散化数据流),表示连续不断的数据流。DStream抽象是Spark Streaming的流处理模型,在内部实现上,Spark Streaming会对输入数据按照时间间隔(如1秒)分段,每一段数据转换为Spark中的RDD,这些分段就是Dstream,并且对DStream的操作都最终转变为对相应的RDD的操作。
Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。Spark SQL 的前身是Shark,Shark是基于 Hive 所开发的工具,它修改了下图所示的右下角的内存管理、物理计划、执行三个模块,并使之能运行在 Spark 引擎上。 阅读全文
摘要:
本篇文章我们来模拟一个真实的风险识别场景,模拟XX平台上可能出现盗号行为。
技术实现方案:
(1)通过将xxx平台用户登录时的登录日志发送到kafka(本文代码演示用的socket);
(2)Flink CEP SQL规则引擎中定义好风控识别规则,接入kafka数据源,比如一个账号在5分钟内,在多个不同地区有登录行为,那我们认为该账号被盗;
(3)Flink CEP将识别到的风险数据可以进行下发,为数据应用层提供数据服务,如:风控系统,数据大屏,态势感知..... 阅读全文
摘要:
Flink CEP SQL中提供了四种匹配策略:
(1)skip to next row
从匹配成功的事件序列中的第一个事件的下一个事件开始进行下一次匹配
(2)skip past last row
从匹配成功的事件序列中的最后一个事件的下一个事件开始进行下一次匹配
(3)skip to first pattern Item
从匹配成功的事件序列中第一个对应于patternItem的事件开始进行下一次匹配
(4)skip to last pattern Item
从匹配成功的事件序列中最后一个对应于patternItem的事件开始进行下一次匹配 阅读全文
摘要:
(4)Flink CEP SQL贪婪词量演示 阅读全文
摘要:
Flink CEP SQL宽松近邻代码演示 阅读全文
摘要:
上一篇我们对Flink CEP做了简单介绍,这一篇我们通过代码来演示一下Flink CEP SQL中的严格近邻效果: 阅读全文
摘要:
复杂事件处理(CEP)既是把不同的数据看做不同的事件,并且通过分析事件之间的关系建立起一套事件关系序列库。利用过滤,聚合,关联性,依赖,层次等技术,最终实现由简单关系产生高级事件关系。
复杂事件主要应用场景:主要用于信用卡欺诈检测、用户风险检测、设备故障检测、攻击行为分析等领域。
Flink CEP能够利用的场景较多,在实际业务场景中也有了广泛的使用案例与经验积累。比如 阅读全文
摘要:
Flink提供了自定义函数的基础能力,在需要满足特殊业务场景需求时,根据自身需要按需定制自己的UDF 下面将简单演示一个UDF的定义和UDF的使用过程: (1)定义一个UDF package com.udf; import org.apache.flink.table.functions.Scala 阅读全文
摘要:
public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.s 阅读全文
摘要:
这里不展开zookeeper、kafka安装配置 (1)首先需要启动zookeeper和kafka (2)定义一个kafka生产者 package com.producers; import com.alibaba.fastjson.JSONObject; import com.pojo.Event 阅读全文
摘要:
public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.s 阅读全文
摘要:
本章节主要演示从socket接收数据,通过滚动窗口每30秒运算一次窗口数据,然后将结果写入Mysql数据库 (1)准备一个实体对象,消息对象 package com.pojo; import java.io.Serializable; /** * Created by lj on 2022-07-0 阅读全文
摘要:
滑动窗口(Sliding Windows)与滚动窗口类似,滑动窗口的大小也是固定的。区别在于,窗口之间并不是首尾相接的,而是可以“错开”一定的位置。如果看作一个窗口的运动,那么就像是向前小步“滑动”一样。定义滑动窗口的参数有两个:除去窗口大小(window size)之外,还有一个滑动步长(wind 阅读全文
摘要:
滚动窗口(Tumbling Windows) 滚动窗口有固定的大小,是一种对数据进行均匀切片的划分方式。窗口之间没有重叠,也不会有间隔,是“首尾相接”的状态。滚动窗口可以基于时间定义,也可以基于数据个数定义;需要的参数只有一个,就是窗口的大小(window size)。 demo演示: 场景:接收通 阅读全文
摘要:
FlinkSQL的出现,极大程度上降低了Flink的编程门槛,更加容易理解和掌握使用。今天将自己的笔记分享出来,希望能帮助在这方面有需要的朋友。 (1)首先引入POM依赖: <properties> <flink.version>1.13.1</flink.version> <scala.binar 阅读全文
摘要:
NBI可视化平台快速入门教程(五)编辑器功能操作介绍 阅读全文
摘要:
NBI可视化平台快速入门教程(四)数据可视化编辑器介绍 阅读全文
摘要:
NBI一站式大数据分析平台作为新一代自助式、探索式分析工具,在产品设计理念上始终从用户的角度出发,一直围绕简单、易用,强调交互分析为目的的新型产品。我们将数据分析的各环节(数据准备、自服务数据建模、探索式分析、权限管控)融入到系统当中,让企业有序的、安全的管理数据和分析数据。 阅读全文
摘要:
NBI大数据可视化分析平台作为新一代自助式、探索式分析工具,在产品设计理念上始终从用户的角度出发,一直围绕简单、易用,强调交互分析为目的的新型产品。我们将数据分析的各环节(数据准备、自服务数据建模、探索式分析、权限管控)融入到系统当中,让企业有序的、安全的管理数据和分析数据。http://www.easydatavis.com 阅读全文
摘要:
NBI可视化平台快速入门教程-数据准备 1. 数据准备 这里使用 Excel 作为演示数据: 数据样本: 2.登录系统 3.进入系统后,根据向导,进入数据准备模块 4.选择对应数据源类型,这里我们选Excel数据源类型 5.创建数据源连接 6.数据源创建成功 8.我们可以做下测试,验证是否成功 到此 阅读全文
摘要:
NBI大数据可视化分析平台作为新一代自助式、探索式分析工具,在产品设计理念上始终从用户的角度出发,一直围绕简单、易用,强调交互分析为目的的新型产品。我们将数据分析的各环节(数据准备、自服务数据建模、探索式分析、权限管控)融入到系统当中,让企业有序的、安全的管理数据和分析数据。 阅读全文
摘要:
什么是时序数据库
先来介绍什么是时序数据。时序数据是基于时间的一系列的数据。在有时间的坐标中将这些数据点连成线,往过去看可以做成多纬度报表,揭示其趋势性、规律性、异常性;往未来看可以做大数据分析,机器学习,实现预测和预警。
时序数据库就是存放时序数据的数据库,并且需要支持时序数据的快速写入、持久化、多纬度的聚合查询等基本功能。 阅读全文
摘要:
我们先来了解一下什么是RFM模型:
RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在众多的客户关系管理的分析模式中,RFM模型是被广泛提到的。该数据模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱3项指标来描述该客户的价值状况。 阅读全文