06 2018 档案

摘要:1.DataFrame中某一列的值衍生为新的特征 2.分组统计,选出同一USRID下该变量中出现次数最多的值项 3.衍生出某天是否发生的ont-hot新特征 4.查看用户一共停留在APP上多少秒,共有几天看了APP 阅读全文
posted @ 2018-06-26 16:41 光彩照人 阅读(624) 评论(0) 推荐(0) 编辑
摘要:一、简介 孤立森林(Isolation Forest)是另外一种高效的异常检测算法,它和随机森林类似,但每次选择划分属性和划分点(值)时都是随机的,而不是根据信息增益或者基尼指数来选择。在建树过程中,如果一些样本很快就到达了叶子节点(即叶子到根的距离d很短),那么就被认为很有可能是异常点。 具体步骤 阅读全文
posted @ 2018-06-08 18:00 光彩照人 阅读(6132) 评论(0) 推荐(1) 编辑
摘要:异常点往往是由于某一个特征或者多个特征数值异常。但是对于多维度特征无法直接进行可视化观测异常点,利用PCA技术进行维度缩减,可以在二维或者三维空间上进行可视化展示。 原数据如下: 找出异常点的索引号 总结: 从原数据我们直观看数据,就发现第4和第5行数据属于异常,通过画图找出来的异常点与初步判断一致 阅读全文
posted @ 2018-06-07 18:11 光彩照人 阅读(958) 评论(0) 推荐(0) 编辑
摘要:AUC的含义是什么? 答:其含义为,随机给定一个正样本和一个负样本,用一个分类器进行分类和预测,该正样本得分排名比负样本的得分靠前的概率。 利用sklearn画AUC曲线 from sklearn.metrics import roc_curve labels=[1,1,0,0,1] preds=[ 阅读全文
posted @ 2018-06-05 11:09 光彩照人 阅读(823) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-06-04 16:57 光彩照人 阅读(478) 评论(0) 推荐(0) 编辑
摘要:该红色区域在一个2×8的矩形方框里面。使用蒙特卡洛方法,随机在这个矩形里面产生大量随机点(数量为N),计算有多少点(数量为count)落在红色区域内(判断条件为y<x**3),count/N就是落在红色区域的点的比例,根据相应比例即可求出红色区域的面积。代码如下: 下面为估算有多少个点落在红色区域, 阅读全文
posted @ 2018-06-04 12:00 光彩照人 阅读(4469) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示