06 2018 档案
摘要:1.DataFrame中某一列的值衍生为新的特征 2.分组统计,选出同一USRID下该变量中出现次数最多的值项 3.衍生出某天是否发生的ont-hot新特征 4.查看用户一共停留在APP上多少秒,共有几天看了APP
阅读全文
摘要:一、简介 孤立森林(Isolation Forest)是另外一种高效的异常检测算法,它和随机森林类似,但每次选择划分属性和划分点(值)时都是随机的,而不是根据信息增益或者基尼指数来选择。在建树过程中,如果一些样本很快就到达了叶子节点(即叶子到根的距离d很短),那么就被认为很有可能是异常点。 具体步骤
阅读全文
摘要:异常点往往是由于某一个特征或者多个特征数值异常。但是对于多维度特征无法直接进行可视化观测异常点,利用PCA技术进行维度缩减,可以在二维或者三维空间上进行可视化展示。 原数据如下: 找出异常点的索引号 总结: 从原数据我们直观看数据,就发现第4和第5行数据属于异常,通过画图找出来的异常点与初步判断一致
阅读全文
摘要:AUC的含义是什么? 答:其含义为,随机给定一个正样本和一个负样本,用一个分类器进行分类和预测,该正样本得分排名比负样本的得分靠前的概率。 利用sklearn画AUC曲线 from sklearn.metrics import roc_curve labels=[1,1,0,0,1] preds=[
阅读全文
摘要:该红色区域在一个2×8的矩形方框里面。使用蒙特卡洛方法,随机在这个矩形里面产生大量随机点(数量为N),计算有多少点(数量为count)落在红色区域内(判断条件为y<x**3),count/N就是落在红色区域的点的比例,根据相应比例即可求出红色区域的面积。代码如下: 下面为估算有多少个点落在红色区域,
阅读全文