2018 年 10月随笔档案 - HarvardFly

Python协程与asyncio

摘要：create_task(coro)：创建一个task，将协程注册到事件循环中 add_done_callback(callback)：task在返回结果前执行回调函数，它的参数是接受一个方法callback，如果这个方法需要传参数可使用partial 在这个事件循环中，call_soon最先执行，接阅读全文

posted @ 2018-10-21 14:04 HarvardFly 阅读(1602) 评论(0) 推荐(0) 编辑

基于PySpark的网络服务异常检测系统 (四) Mysql与SparkSQL对接同步数据 kmeans算法计算预测异常

摘要：基于Django Restframework和Spark的异常检测系统，数据库为MySQL、Redis, 消息队列为Celery，分析服务为Spark SQL和Spark Mllib，使用kmeans和随机森林算法对网络服务数据进行分析；数据分为全量数据和正常数据，每天通过自动跑定时job从全量数据阅读全文

posted @ 2018-10-17 17:26 HarvardFly 阅读(783) 评论(0) 推荐(0) 编辑

基于PySpark的网络服务异常检测系统阶段总结(三)

摘要：本篇博文主要介绍如何使用SVDD算法和Isolation Forest算法来进行异常检测首先是SVDD算法，主要是用sklearn里面的svm.OneClassSVM()来做单分类的异常检测，用cross_validation作为交叉验证调参 1 import numpy as np 2 from 阅读全文

posted @ 2018-10-17 17:08 HarvardFly 阅读(316) 评论(0) 推荐(0) 编辑

基于PySpark的网络服务异常检测系统阶段总结(一)

摘要：又有快半年没更新博客了，自我总结原因，一个字：懒。现在对这半年所做的研究进行一个阶段性的总结，近几个月博主主要对网络服务异常检测相关算法进行了研究，并设计实现了基于Spark的网络服务异常检测系统，整个系统采用前后端分离的模式，所用技术：Pyspark+SparkSQL+Sklearn+Spark_ 阅读全文

posted @ 2018-10-17 17:03 HarvardFly 阅读(662) 评论(0) 推荐(1) 编辑

Spark SQL大数据处理并写入Elasticsearch

摘要：SparkSQL(Spark用于处理结构化数据的模块) 通过SparkSQL导入的数据可以来自MySQL数据库、Json数据、Csv数据等，通过load这些数据可以对其做一系列计算下面通过程序代码来详细查看SparkSQL导入数据并写入到ES中：数据集：北京市PM2.5数据 Spark版本：2. 阅读全文

posted @ 2018-10-16 21:23 HarvardFly 阅读(7094) 评论(0) 推荐(0) 编辑

Spark缓存策略

摘要：当对同一个rdd多次执行action时，如果在磁盘上则每次执行action都会从磁盘将数据加载，如果将其缓存到内存中会提高再次action的读取速度，Spark缓存主要有cache()和persist()两种，当缓存一个rdd时，每一个节点上都会存放这个rdd的partition，当要使用rdd的时阅读全文

posted @ 2018-10-10 18:48 HarvardFly 阅读(1578) 评论(0) 推荐(0) 编辑

Spark之join、leftOuterJoin、rightOuterJoin及fullOuterJoin

摘要：Spark的join与mysql的join类似，mysql的join是将表与表之间连接查询，spark中join是将RDD数据集进行连接，Spark主要有join、leftOuterJoin、rightOuterJoin及fullOuterJoin这4种连接 join：相当于mysql的INNER 阅读全文

posted @ 2018-10-06 22:08 HarvardFly 阅读(9789) 评论(0) 推荐(2) 编辑

Spark中groupByKey、reduceByKey与sortByKey

摘要：groupByKey把相同的key的数据分组到一个集合序列当中： [("hello",1), ("world",1), ("hello",1), ("fly",1), ("hello",1), ("world",1)] --> [("hello",(1,1,1)),("word",(1,1)),(" 阅读全文

posted @ 2018-10-06 17:18 HarvardFly 阅读(2548) 评论(1) 推荐(1) 编辑

Spark中map与flatMap

摘要：map将函数作用到数据集的每一个元素上，生成一个新的分布式的数据集(RDD)返回 map函数的源码： map将每一条输入执行func操作并对应返回一个对象，形成一个新的rdd，如源码中的rdd.map(lambda x: (x, 1) --> [('a', 1), ('b', 1), ('c', 1 阅读全文

posted @ 2018-10-06 14:39 HarvardFly 阅读(8586) 评论(0) 推荐(0) 编辑

nginx+uwsgi启动Django项目

摘要：1.安装项目环境系统环境：ubuntu16.04 python环境：python3.5.2 Django版本：django1.11.7 nginx环境：nginx_1.10.3 虚拟环境：virtualenv15.1.0 uwsgi版本：uwsgi2.0.17.1 安装并进入项目虚拟环境： 2.项阅读全文

posted @ 2018-10-05 00:10 HarvardFly 阅读(6901) 评论(0) 推荐(0) 编辑

yield与yield from

摘要：yield 通过yield返回的是一个生成器，yield既可以产出值又可以生成值，yield可以用next()来启动生成器，同时可以用send向生成器传递值；在初次启动生成器时，需调用next()或send(None)来激活生成器，一个yield对应一个send或next(),当send或next( 阅读全文

posted @ 2018-10-04 18:13 HarvardFly 阅读(322) 评论(0) 推荐(0) 编辑

python线程池ThreadPoolExecutor与进程池ProcessPoolExecutor

摘要：python中ThreadPoolExecutor(线程池)与ProcessPoolExecutor(进程池)都是concurrent.futures模块下的，主线程(或进程)中可以获取某一个线程(进程)执行的状态或者某一个任务执行的状态及返回值。通过submit返回的是一个future对象，它是阅读全文

posted @ 2018-10-03 21:55 HarvardFly 阅读(27993) 评论(0) 推荐(0) 编辑

Python线程同步

摘要：线程执行 join与setDaemon 子线程在主线程运行结束后，会继续执行完，如果给子线程设置为守护线程(setDaemon=True)，主线程运行结束子线程即结束；如果join()线程，那么主线程会等待子线程执行完再执行。线程同步当线程间共享全局变量，多个线程对该变量执行不同的操作时，该变阅读全文

posted @ 2018-10-03 00:07 HarvardFly 阅读(5642) 评论(0) 推荐(1) 编辑

HarvardFly

10 2018 档案

公告

搜索

常用链接

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论