09 2020 档案

摘要:CART算法只做二元切分,因此每个树节点包含待切分的特征,待切分的特征值,左子树,右子树。 import numpy as np class treeNode(object): def __init__(self, feat, val, right, left): featureToSplitOn 阅读全文
posted @ 2020-09-30 10:24 ~宁静致远~ 阅读(1288) 评论(0) 推荐(0) 编辑
摘要:正确率(precision),TP/(TP+FP),给出的是预测为正例的样本中的真正正例的比例。 召回率(recall),TP/(TP+FN),给出的是预测为正例中的真实正例占所有真实正例的比例。 F-度量值(F-Score),组合precision和recall为一个单独的得分,被定义为精确度和召 阅读全文
posted @ 2020-09-29 17:35 ~宁静致远~ 阅读(566) 评论(0) 推荐(0) 编辑
摘要:大多数情况下,两者的表现比较相近,但在一些情况中不排除某种方法相对另一种方法有明显优势,因此建议两者都试一下。 random forest将一些较强的分类器组合在一起,boosting trees将一些较弱的分类器组合在一起;因此可以理解为random forest降低方差,boosting tre 阅读全文
posted @ 2020-09-29 16:39 ~宁静致远~ 阅读(191) 评论(0) 推荐(0) 编辑
摘要:1.对数据进行概览,观测其异常值和缺失值,异常值可以通过qq图或设定偏离均值一定方差范围以外的阈值进行过滤。 2.缺失值和异常值处理,根据具体情况,是否需要对缺失值进行删除或填充,是否需要将异常值删除或将其处理到正常范围以内。 3.利用描述性统计量和箱线图观察样本各个特征分布情况。需要注意:观察不同 阅读全文
posted @ 2020-09-29 09:52 ~宁静致远~ 阅读(804) 评论(0) 推荐(0) 编辑
摘要:风险类型可以分为financial risks和non-financial risks,financial risks为直接的,non-financial risks为间接的。 financial risks里面包含信用风险、市场风险、流动性风险,剩下的寿险和非寿险是保险公司面临的风险。 non-f 阅读全文
posted @ 2020-09-27 11:12 ~宁静致远~ 阅读(874) 评论(0) 推荐(0) 编辑
摘要:线性回归的一个问题可能是有可能出现欠拟合(如下图所示样本),因为它求的是具有最小均方误差的无偏估计。如果模型欠拟合将不能取得最好的预测效果。所以有些方法允许在估计中引入一些偏差,从而降低预测的均方误差。其中的一个方法是局部加权线性回归。在该算法中,我们给待预测点附近的每一个点赋予一定的权重,在这个子 阅读全文
posted @ 2020-09-24 18:16 ~宁静致远~ 阅读(1396) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示