摘要: Elasticsearch是一个基于Lucene的搜索服务器,其搜索的核心原理是倒排索引,今天谈下在日常项目中使用它遇到的一些问题及优化解决办法。 一. 搜索的深度分页问题 在日常项目中,经常会有分页搜索并支持跳页的需求,类似百度、Google搜索那样,使用ES进行这类需求的搜索时一般采用from/ 阅读全文
posted @ 2018-11-13 16:45 HarvardFly 阅读(1482) 评论(0) 推荐(2) 编辑
摘要: create_task(coro):创建一个task,将协程注册到事件循环中 add_done_callback(callback):task在返回结果前执行回调函数,它的参数是接受一个方法callback,如果这个方法需要传参数可使用partial 在这个事件循环中,call_soon最先执行,接 阅读全文
posted @ 2018-10-21 14:04 HarvardFly 阅读(1578) 评论(0) 推荐(0) 编辑
摘要: 基于Django Restframework和Spark的异常检测系统,数据库为MySQL、Redis, 消息队列为Celery,分析服务为Spark SQL和Spark Mllib,使用kmeans和随机森林算法对网络服务数据进行分析;数据分为全量数据和正常数据,每天通过自动跑定时job从全量数据 阅读全文
posted @ 2018-10-17 17:26 HarvardFly 阅读(767) 评论(0) 推荐(0) 编辑
摘要: 本篇博文主要介绍如何使用SVDD算法和Isolation Forest算法来进行异常检测 首先是SVDD算法,主要是用sklearn里面的svm.OneClassSVM()来做单分类的异常检测,用cross_validation作为交叉验证调参 1 import numpy as np 2 from 阅读全文
posted @ 2018-10-17 17:08 HarvardFly 阅读(305) 评论(0) 推荐(0) 编辑
摘要: SparkSQL(Spark用于处理结构化数据的模块) 通过SparkSQL导入的数据可以来自MySQL数据库、Json数据、Csv数据等,通过load这些数据可以对其做一系列计算 下面通过程序代码来详细查看SparkSQL导入数据并写入到ES中: 数据集:北京市PM2.5数据 Spark版本:2. 阅读全文
posted @ 2018-10-16 21:23 HarvardFly 阅读(7043) 评论(0) 推荐(0) 编辑
摘要: 当对同一个rdd多次执行action时,如果在磁盘上则每次执行action都会从磁盘将数据加载,如果将其缓存到内存中会提高再次action的读取速度,Spark缓存主要有cache()和persist()两种,当缓存一个rdd时,每一个节点上都会存放这个rdd的partition,当要使用rdd的时 阅读全文
posted @ 2018-10-10 18:48 HarvardFly 阅读(1558) 评论(0) 推荐(0) 编辑
摘要: Spark的join与mysql的join类似,mysql的join是将表与表之间连接查询,spark中join是将RDD数据集进行连接,Spark主要有join、leftOuterJoin、rightOuterJoin及fullOuterJoin这4种连接 join:相当于mysql的INNER 阅读全文
posted @ 2018-10-06 22:08 HarvardFly 阅读(9678) 评论(0) 推荐(2) 编辑
摘要: groupByKey把相同的key的数据分组到一个集合序列当中: [("hello",1), ("world",1), ("hello",1), ("fly",1), ("hello",1), ("world",1)] --> [("hello",(1,1,1)),("word",(1,1)),(" 阅读全文
posted @ 2018-10-06 17:18 HarvardFly 阅读(2501) 评论(1) 推荐(1) 编辑
摘要: map将函数作用到数据集的每一个元素上,生成一个新的分布式的数据集(RDD)返回 map函数的源码: map将每一条输入执行func操作并对应返回一个对象,形成一个新的rdd,如源码中的rdd.map(lambda x: (x, 1) --> [('a', 1), ('b', 1), ('c', 1 阅读全文
posted @ 2018-10-06 14:39 HarvardFly 阅读(8539) 评论(0) 推荐(0) 编辑
摘要: 1.安装项目环境 系统环境:ubuntu16.04 python环境:python3.5.2 Django版本:django1.11.7 nginx环境:nginx_1.10.3 虚拟环境:virtualenv15.1.0 uwsgi版本:uwsgi2.0.17.1 安装并进入项目虚拟环境: 2.项 阅读全文
posted @ 2018-10-05 00:10 HarvardFly 阅读(6885) 评论(0) 推荐(0) 编辑