随笔分类 - 大数据处理
摘要:基于Django Restframework和Spark的异常检测系统,数据库为MySQL、Redis, 消息队列为Celery,分析服务为Spark SQL和Spark Mllib,使用kmeans和随机森林算法对网络服务数据进行分析;数据分为全量数据和正常数据,每天通过自动跑定时job从全量数据
阅读全文
摘要:本篇博文主要介绍如何使用SVDD算法和Isolation Forest算法来进行异常检测 首先是SVDD算法,主要是用sklearn里面的svm.OneClassSVM()来做单分类的异常检测,用cross_validation作为交叉验证调参 1 import numpy as np 2 from
阅读全文
摘要:又有快半年没更新博客了,自我总结原因,一个字:懒。现在对这半年所做的研究进行一个阶段性的总结,近几个月博主主要对网络服务异常检测相关算法进行了研究,并设计实现了基于Spark的网络服务异常检测系统,整个系统采用前后端分离的模式,所用技术:Pyspark+SparkSQL+Sklearn+Spark_
阅读全文
摘要:SparkSQL(Spark用于处理结构化数据的模块) 通过SparkSQL导入的数据可以来自MySQL数据库、Json数据、Csv数据等,通过load这些数据可以对其做一系列计算 下面通过程序代码来详细查看SparkSQL导入数据并写入到ES中: 数据集:北京市PM2.5数据 Spark版本:2.
阅读全文
摘要:当对同一个rdd多次执行action时,如果在磁盘上则每次执行action都会从磁盘将数据加载,如果将其缓存到内存中会提高再次action的读取速度,Spark缓存主要有cache()和persist()两种,当缓存一个rdd时,每一个节点上都会存放这个rdd的partition,当要使用rdd的时
阅读全文
摘要:Spark的join与mysql的join类似,mysql的join是将表与表之间连接查询,spark中join是将RDD数据集进行连接,Spark主要有join、leftOuterJoin、rightOuterJoin及fullOuterJoin这4种连接 join:相当于mysql的INNER
阅读全文
摘要:groupByKey把相同的key的数据分组到一个集合序列当中: [("hello",1), ("world",1), ("hello",1), ("fly",1), ("hello",1), ("world",1)] --> [("hello",(1,1,1)),("word",(1,1)),("
阅读全文
摘要:map将函数作用到数据集的每一个元素上,生成一个新的分布式的数据集(RDD)返回 map函数的源码: map将每一条输入执行func操作并对应返回一个对象,形成一个新的rdd,如源码中的rdd.map(lambda x: (x, 1) --> [('a', 1), ('b', 1), ('c', 1
阅读全文
摘要:在上篇博文中介绍了网络服务异常检测的大概,本篇将详细介绍SVDD和Isolation Forest这两种算法 1. SVDD算法 SVDD的英文全称是Support Vector Data Description,又称为支持向量数据描述,它是由Tax和Duin提出的一种单分类算法,它起源于V.Vap
阅读全文
摘要:1.Spark Streaming是什么 Spark Streaming是在Spark上建立的可扩展的高吞吐量实时处理流数据的框架,数据可以是来自多种不同的源,例如kafka,Flume,Twitter,ZeroMQ或者TCP Socket等。在这个框架下,支持对流数据的各种运算,比如map,red
阅读全文
摘要:转载或借鉴请注明转自 http://www.cnblogs.com/FG123/p/5101733.html 谢谢! 1.安装Spark之前需要先安装Java,Scala及Python(个人喜欢用pyspark,当然你也可以用原生的Scala) 首先安装Java jdk: 我们可以在Oracle的官
阅读全文