10 2018 档案

摘要:create_task(coro):创建一个task,将协程注册到事件循环中 add_done_callback(callback):task在返回结果前执行回调函数,它的参数是接受一个方法callback,如果这个方法需要传参数可使用partial 在这个事件循环中,call_soon最先执行,接 阅读全文
posted @ 2018-10-21 14:04 HarvardFly 阅读(1602) 评论(0) 推荐(0) 编辑
摘要:基于Django Restframework和Spark的异常检测系统,数据库为MySQL、Redis, 消息队列为Celery,分析服务为Spark SQL和Spark Mllib,使用kmeans和随机森林算法对网络服务数据进行分析;数据分为全量数据和正常数据,每天通过自动跑定时job从全量数据 阅读全文
posted @ 2018-10-17 17:26 HarvardFly 阅读(783) 评论(0) 推荐(0) 编辑
摘要:本篇博文主要介绍如何使用SVDD算法和Isolation Forest算法来进行异常检测 首先是SVDD算法,主要是用sklearn里面的svm.OneClassSVM()来做单分类的异常检测,用cross_validation作为交叉验证调参 1 import numpy as np 2 from 阅读全文
posted @ 2018-10-17 17:08 HarvardFly 阅读(316) 评论(0) 推荐(0) 编辑
摘要:又有快半年没更新博客了,自我总结原因,一个字:懒。现在对这半年所做的研究进行一个阶段性的总结,近几个月博主主要对网络服务异常检测相关算法进行了研究,并设计实现了基于Spark的网络服务异常检测系统,整个系统采用前后端分离的模式,所用技术:Pyspark+SparkSQL+Sklearn+Spark_ 阅读全文
posted @ 2018-10-17 17:03 HarvardFly 阅读(662) 评论(0) 推荐(1) 编辑
摘要:SparkSQL(Spark用于处理结构化数据的模块) 通过SparkSQL导入的数据可以来自MySQL数据库、Json数据、Csv数据等,通过load这些数据可以对其做一系列计算 下面通过程序代码来详细查看SparkSQL导入数据并写入到ES中: 数据集:北京市PM2.5数据 Spark版本:2. 阅读全文
posted @ 2018-10-16 21:23 HarvardFly 阅读(7094) 评论(0) 推荐(0) 编辑
摘要:当对同一个rdd多次执行action时,如果在磁盘上则每次执行action都会从磁盘将数据加载,如果将其缓存到内存中会提高再次action的读取速度,Spark缓存主要有cache()和persist()两种,当缓存一个rdd时,每一个节点上都会存放这个rdd的partition,当要使用rdd的时 阅读全文
posted @ 2018-10-10 18:48 HarvardFly 阅读(1578) 评论(0) 推荐(0) 编辑
摘要:Spark的join与mysql的join类似,mysql的join是将表与表之间连接查询,spark中join是将RDD数据集进行连接,Spark主要有join、leftOuterJoin、rightOuterJoin及fullOuterJoin这4种连接 join:相当于mysql的INNER 阅读全文
posted @ 2018-10-06 22:08 HarvardFly 阅读(9789) 评论(0) 推荐(2) 编辑
摘要:groupByKey把相同的key的数据分组到一个集合序列当中: [("hello",1), ("world",1), ("hello",1), ("fly",1), ("hello",1), ("world",1)] --> [("hello",(1,1,1)),("word",(1,1)),(" 阅读全文
posted @ 2018-10-06 17:18 HarvardFly 阅读(2548) 评论(1) 推荐(1) 编辑
摘要:map将函数作用到数据集的每一个元素上,生成一个新的分布式的数据集(RDD)返回 map函数的源码: map将每一条输入执行func操作并对应返回一个对象,形成一个新的rdd,如源码中的rdd.map(lambda x: (x, 1) --> [('a', 1), ('b', 1), ('c', 1 阅读全文
posted @ 2018-10-06 14:39 HarvardFly 阅读(8586) 评论(0) 推荐(0) 编辑
摘要:1.安装项目环境 系统环境:ubuntu16.04 python环境:python3.5.2 Django版本:django1.11.7 nginx环境:nginx_1.10.3 虚拟环境:virtualenv15.1.0 uwsgi版本:uwsgi2.0.17.1 安装并进入项目虚拟环境: 2.项 阅读全文
posted @ 2018-10-05 00:10 HarvardFly 阅读(6901) 评论(0) 推荐(0) 编辑
摘要:yield 通过yield返回的是一个生成器,yield既可以产出值又可以生成值,yield可以用next()来启动生成器,同时可以用send向生成器传递值;在初次启动生成器时,需调用next()或send(None)来激活生成器,一个yield对应一个send或next(),当send或next( 阅读全文
posted @ 2018-10-04 18:13 HarvardFly 阅读(322) 评论(0) 推荐(0) 编辑
摘要:python中ThreadPoolExecutor(线程池)与ProcessPoolExecutor(进程池)都是concurrent.futures模块下的,主线程(或进程)中可以获取某一个线程(进程)执行的状态或者某一个任务执行的状态及返回值。 通过submit返回的是一个future对象,它是 阅读全文
posted @ 2018-10-03 21:55 HarvardFly 阅读(27993) 评论(0) 推荐(0) 编辑
摘要:线程执行 join与setDaemon 子线程在主线程运行结束后,会继续执行完,如果给子线程设置为守护线程(setDaemon=True),主线程运行结束子线程即结束; 如果join()线程,那么主线程会等待子线程执行完再执行。 线程同步 当线程间共享全局变量,多个线程对该变量执行不同的操作时,该变 阅读全文
posted @ 2018-10-03 00:07 HarvardFly 阅读(5642) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示