06 2018 档案

摘要：1.DataFrame中某一列的值衍生为新的特征 2.分组统计，选出同一USRID下该变量中出现次数最多的值项 3.衍生出某天是否发生的ont-hot新特征 4.查看用户一共停留在APP上多少秒，共有几天看了APP 阅读全文

posted @ 2018-06-26 16:41 光彩照人阅读(624) 评论(0) 推荐(0) 编辑

摘要：一、简介孤立森林（Isolation Forest）是另外一种高效的异常检测算法，它和随机森林类似，但每次选择划分属性和划分点（值）时都是随机的，而不是根据信息增益或者基尼指数来选择。在建树过程中，如果一些样本很快就到达了叶子节点（即叶子到根的距离d很短），那么就被认为很有可能是异常点。具体步骤阅读全文

posted @ 2018-06-08 18:00 光彩照人阅读(6135) 评论(0) 推荐(1) 编辑

利用PCA可视化异常点

摘要：异常点往往是由于某一个特征或者多个特征数值异常。但是对于多维度特征无法直接进行可视化观测异常点，利用PCA技术进行维度缩减，可以在二维或者三维空间上进行可视化展示。原数据如下: 找出异常点的索引号总结：从原数据我们直观看数据，就发现第4和第5行数据属于异常，通过画图找出来的异常点与初步判断一致阅读全文

posted @ 2018-06-07 18:11 光彩照人阅读(964) 评论(0) 推荐(0) 编辑

AUC画图与计算

摘要：AUC的含义是什么？答：其含义为，随机给定一个正样本和一个负样本，用一个分类器进行分类和预测，该正样本得分排名比负样本的得分靠前的概率。利用sklearn画AUC曲线 from sklearn.metrics import roc_curve labels=[1,1,0,0,1] preds=[ 阅读全文

posted @ 2018-06-05 11:09 光彩照人阅读(825) 评论(0) 推荐(0) 编辑

标准信用评分计算方式

摘要：阅读全文

posted @ 2018-06-04 16:57 光彩照人阅读(478) 评论(0) 推荐(0) 编辑

利用蒙特卡洛方法对面积进行近似估算

摘要：该红色区域在一个2×8的矩形方框里面。使用蒙特卡洛方法，随机在这个矩形里面产生大量随机点（数量为N），计算有多少点（数量为count）落在红色区域内（判断条件为y<x**3），count/N就是落在红色区域的点的比例，根据相应比例即可求出红色区域的面积。代码如下：下面为估算有多少个点落在红色区域，阅读全文

posted @ 2018-06-04 12:00 光彩照人阅读(4481) 评论(0) 推荐(0) 编辑

公告

昵称：光彩照人
园龄： 8年1个月
粉丝： 140
关注： 7

+加关注

2025年3月

日

一

二

三

四

五

六

光彩照人

每一次挫折都是一次蜕变，挫折越大，蜕变越彻底！

06 2018 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论