随笔分类 - 数据挖掘
摘要:Twritters的异常检测算法(Anomaly Detection)做的比较好,Seasonal Hybrid ESD算法是先用STL把序列分解,考察残差项。假定这一项符合正态分布,然后就可以用Generalized ESD提取离群点。 目标是检测出时间序列数据集的异常点,如图所示,蓝色线是时间序
阅读全文
摘要:前言:最近公司要求编写一个爬虫,需要完善后续金融项目的数据,由于工作隐私,就不付被爬的网址url了,下面总结下spider的工作原理。 语言:python;工具:jupyter; 概要:说到爬虫spider,就不得不提html页面的解析,说到html页面的解析就不得不提beautifulsoap模块
阅读全文
摘要:相对于机器学习,关联规则的apriori算法更偏向于数据挖掘。 1) 测试文档中调用weka的关联规则apriori算法,如下 步骤 1 读取数据集data,并提取样本集instances 2 离散化属性Discretize 3 创建Apriori 关联规则模型 4 输出大频率项集和关联规则集 2)
阅读全文