摘要: 一、多元高斯分布简介 假使我们有两个相关的特征,而且这两个特征的值域范围比较宽,这种情况下,一般的高斯分布模型可能不能很好地识别异常数据。其原因在于,一般的高斯分布模型尝试的是去同时抓住两个特征的偏差,因此创造出一个比较大的判定边界。 下图中是两个相关特征,洋红色的线(根据ε 的不同其范围可大可小) 阅读全文
posted @ 2019-03-15 16:44 NeoML 阅读(735) 评论(0) 推荐(0) 编辑
摘要: 对于异常检测算法,使用特征是至关重要的,下面谈谈如何选择特征: 异常检测假设特征符合高斯分布,如果数据的分布不是高斯分布,异常检测算法也能够工作,但是最好还是将数据转换成高斯分布,例如使用对数函数:𝑥 = 𝑙𝑜𝑔(𝑥 + 𝑐),其中 𝑐为非负常数; 或者 𝑥 = 𝑥^𝑐,𝑐为 阅读全文
posted @ 2019-03-15 12:18 NeoML 阅读(674) 评论(0) 推荐(0) 编辑
摘要: GitHub代码练习地址:1.手动利用cookie访问网页:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac10_cookie1.py 2.自动利用cookie访问人人主页:https://github.com/Neo-M 阅读全文
posted @ 2019-03-15 10:28 NeoML 阅读(332) 评论(0) 推荐(0) 编辑
摘要: GitHub代码练习地址:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac09_ProxyHandler.pyProxyHandler处理(代理服务器) 使用代理IP,是爬虫的常用手段提供代理服务器的地址有很多,例如: w 阅读全文
posted @ 2019-03-15 04:33 NeoML 阅读(500) 评论(0) 推荐(0) 编辑
摘要: GitHub代码练习地址:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac08_useragent.py 阅读全文
posted @ 2019-03-15 00:27 NeoML 阅读(584) 评论(0) 推荐(0) 编辑