2018 年 1月随笔档案 - FontTian

摘要：关于交叉验证,我在之前的文章中已经进行了简单的介绍,而现在我们则通过几个更加详尽的例子.详细的介绍CV%matplotlib inlineimport numpy as npfrom sklear... 阅读全文

posted @ 2018-01-31 17:36 FontTian 阅读(1386) 评论(0) 推荐(0) 编辑

摘要：留出法(hold-out)使用 n:m and n + m =1 的形式对原数据进行分割,例如 train : test = 7 : 3 or train : test = 6.5 : 3.5 但... 阅读全文

posted @ 2018-01-31 17:08 FontTian 阅读(298) 评论(0) 推荐(0) 编辑

摘要：留出法(hold-out)使用 n:m and n + m =1 的形式对原数据进行分割,例如 train : test = 7 : 3 or train : test = 6.5 : 3.5 但是这种相对原始的处理方式效果并不好,缺点如下: 缺点一:浪费数据缺点二:... 阅读全文

posted @ 2018-01-31 17:08 FontTian 阅读(255) 评论(0) 推荐(0) 编辑

摘要：理论数学推导请参考《统计机器学习》-李航,或者参考sklearn的官方文档,下面是我的部分笔记,也可以作为参考优缺点GBRT是对任意的可微损失函数的提升算法的泛化，即可回归亦可分（sai）类（ti... 阅读全文

posted @ 2018-01-26 22:02 FontTian 阅读(786) 评论(0) 推荐(0) 编辑

集成算法中的Bagging

摘要：Bagging meta-estimator基本描述在集成算法中，bagging 方法会在原始训练集的随机子集上构建一类黑盒估计器的多个实例，然后把这些估计器的预测结果结合起来形成最终的预测结果。... 阅读全文

posted @ 2018-01-16 14:16 FontTian 阅读(482) 评论(0) 推荐(0) 编辑

RandomForest:随机森林

摘要：随机森林：RF随机森林是一种一决策树为基学习器的Bagging算法，但是不同之处在于RF决策树的训练过程中还加入了随机属性选择（特征上的子采样）传统的决策树在选择划分的属性时，会选择最优属性RF ... 阅读全文

posted @ 2018-01-16 14:07 FontTian 阅读(485) 评论(0) 推荐(0) 编辑

摘要：SelectFromModelsklearn在Feature selection模块中内置了一个SelectFromModel，该模型可以通过Model本身给出的指标对特征进行选择，其作用与其名字高度一致，select （feature） from model。 Se... 阅读全文

posted @ 2018-01-15 15:18 FontTian 阅读(342) 评论(0) 推荐(0) 编辑

摘要：BUG最近复用以前的错误代码,结果发现了一个bug,bug如下: File "/home/michael/work/oanda/src/oanda/trend_prediction/fi... 阅读全文

posted @ 2018-01-09 14:34 FontTian 阅读(331) 评论(0) 推荐(0) 编辑

摘要：简述特征的选取方式一共有三种，在sklearn实现了的包裹式(wrapper)特诊选取只有两个递归式特征消除的方法，如下：recursive feature elimination ( RFE )通过学习器返回的 coef_ 属性或者 feature_importa... 阅读全文

posted @ 2018-01-08 16:58 FontTian 阅读(1050) 评论(0) 推荐(0) 编辑

摘要：sklearn中的单变量特征选择单变量的特征选择是通过基于一些单变量的统计度量方法来选择最好的特征，比如卡方检测等。Scikit-learn 将单变量特征选择的学习器作为实现了 transform... 阅读全文

posted @ 2018-01-07 20:57 FontTian 阅读(703) 评论(0) 推荐(0) 编辑

摘要：方差特征选择的原理与使用VarianceThreshold 是特征选择的一个简单基本方法,其原理在于–底方差的特征的预测效果往往不好。而VarianceThreshold会移除所有那些方差不满足一... 阅读全文

posted @ 2018-01-07 20:54 FontTian 阅读(625) 评论(0) 推荐(0) 编辑

FontTian的专栏