大数据处理 - 随笔分类 - HarvardFly

基于PySpark的网络服务异常检测系统 (四) Mysql与SparkSQL对接同步数据 kmeans算法计算预测异常

摘要：基于Django Restframework和Spark的异常检测系统，数据库为MySQL、Redis, 消息队列为Celery，分析服务为Spark SQL和Spark Mllib，使用kmeans和随机森林算法对网络服务数据进行分析；数据分为全量数据和正常数据，每天通过自动跑定时job从全量数据阅读全文

posted @ 2018-10-17 17:26 HarvardFly 阅读(801) 评论(0) 推荐(0)

基于PySpark的网络服务异常检测系统阶段总结(三)

摘要：本篇博文主要介绍如何使用SVDD算法和Isolation Forest算法来进行异常检测首先是SVDD算法，主要是用sklearn里面的svm.OneClassSVM()来做单分类的异常检测，用cross_validation作为交叉验证调参 1 import numpy as np 2 from 阅读全文

posted @ 2018-10-17 17:08 HarvardFly 阅读(326) 评论(0) 推荐(0)

基于PySpark的网络服务异常检测系统阶段总结(一)

摘要：又有快半年没更新博客了，自我总结原因，一个字：懒。现在对这半年所做的研究进行一个阶段性的总结，近几个月博主主要对网络服务异常检测相关算法进行了研究，并设计实现了基于Spark的网络服务异常检测系统，整个系统采用前后端分离的模式，所用技术：Pyspark+SparkSQL+Sklearn+Spark_ 阅读全文

posted @ 2018-10-17 17:03 HarvardFly 阅读(697) 评论(0) 推荐(1)

Spark SQL大数据处理并写入Elasticsearch

摘要：SparkSQL(Spark用于处理结构化数据的模块) 通过SparkSQL导入的数据可以来自MySQL数据库、Json数据、Csv数据等，通过load这些数据可以对其做一系列计算下面通过程序代码来详细查看SparkSQL导入数据并写入到ES中：数据集：北京市PM2.5数据 Spark版本：2. 阅读全文

posted @ 2018-10-16 21:23 HarvardFly 阅读(7154) 评论(0) 推荐(0)

Spark缓存策略

摘要：当对同一个rdd多次执行action时，如果在磁盘上则每次执行action都会从磁盘将数据加载，如果将其缓存到内存中会提高再次action的读取速度，Spark缓存主要有cache()和persist()两种，当缓存一个rdd时，每一个节点上都会存放这个rdd的partition，当要使用rdd的时阅读全文

posted @ 2018-10-10 18:48 HarvardFly 阅读(1620) 评论(0) 推荐(0)

Spark之join、leftOuterJoin、rightOuterJoin及fullOuterJoin

摘要：Spark的join与mysql的join类似，mysql的join是将表与表之间连接查询，spark中join是将RDD数据集进行连接，Spark主要有join、leftOuterJoin、rightOuterJoin及fullOuterJoin这4种连接 join：相当于mysql的INNER 阅读全文

posted @ 2018-10-06 22:08 HarvardFly 阅读(9850) 评论(0) 推荐(2)

Spark中groupByKey、reduceByKey与sortByKey

摘要：groupByKey把相同的key的数据分组到一个集合序列当中： [("hello",1), ("world",1), ("hello",1), ("fly",1), ("hello",1), ("world",1)] --> [("hello",(1,1,1)),("word",(1,1)),(" 阅读全文

posted @ 2018-10-06 17:18 HarvardFly 阅读(2597) 评论(1) 推荐(1)

Spark中map与flatMap

摘要：map将函数作用到数据集的每一个元素上，生成一个新的分布式的数据集(RDD)返回 map函数的源码： map将每一条输入执行func操作并对应返回一个对象，形成一个新的rdd，如源码中的rdd.map(lambda x: (x, 1) --> [('a', 1), ('b', 1), ('c', 1 阅读全文

posted @ 2018-10-06 14:39 HarvardFly 阅读(8634) 评论(0) 推荐(0)

基于PySpark的网络服务异常检测系统阶段总结(二)

摘要：在上篇博文中介绍了网络服务异常检测的大概，本篇将详细介绍SVDD和Isolation Forest这两种算法 1. SVDD算法 SVDD的英文全称是Support Vector Data Description，又称为支持向量数据描述，它是由Tax和Duin提出的一种单分类算法，它起源于V.Vap 阅读全文

posted @ 2017-11-02 11:01 HarvardFly 阅读(819) 评论(1) 推荐(1)

Spark Streaming连接TCP Socket

摘要：1.Spark Streaming是什么 Spark Streaming是在Spark上建立的可扩展的高吞吐量实时处理流数据的框架，数据可以是来自多种不同的源，例如kafka，Flume，Twitter，ZeroMQ或者TCP Socket等。在这个框架下，支持对流数据的各种运算，比如map，red 阅读全文

posted @ 2016-03-27 12:21 HarvardFly 阅读(6361) 评论(0) 推荐(2)

Spark1.5.1的安装与部署每一步详细测试截图

摘要：转载或借鉴请注明转自 http://www.cnblogs.com/FG123/p/5101733.html 谢谢！ 1.安装Spark之前需要先安装Java，Scala及Python(个人喜欢用pyspark，当然你也可以用原生的Scala) 首先安装Java jdk：我们可以在Oracle的官阅读全文

posted @ 2016-01-05 11:24 HarvardFly 阅读(3884) 评论(2) 推荐(1)

HarvardFly

随笔分类 - 大数据处理

公告