摘要:
1. Bagging 将多个模型,也就是基学习器的预测结果进行简单的加权平均或者投票。它的好处是可以并行地训练基学习器。Random Forest就用到了Bagging的思想 2. Boosting Boosting的思想有点像知错能改,每个基学习器是在上一个基学习器学习的基础上,对上一个基学习器的 阅读全文
摘要:
1. Dataframe的创建 1. 由数组或列表组成的字典构建DataFrame 1 data1 = {'a' : [1,2,3],'b' : [4,5,6], 'c' : [7,8,9]} 2 df1 = pd.DataFrame(data1) 2. 由Series组成的字典构建DataFram 阅读全文
摘要:
class sklearn.metrics 方法 1.分类问题的度量 1 metrics.accuracy_score 2 metrics.auc 3 metrics.f1_score 4 metrics.precision_score 5 metrics.recall_score 6 metric 阅读全文
摘要:
1. 特征的类别 1. 数值型特征 如:长度、宽度 2. 有序型特征 如:等级(A,B,C),级别(低、中、高) 3. 类别型特征 如:性别(男,女) 2. 数值归一化 1. 数值归一化优势: (1)可以减少计算量 (2)可以去量纲化 2. 有两种归一化方法 范围归一化 和 标准归一化 3. 范围归 阅读全文
摘要:
一. 网格搜索验证 sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, cv=None, verbose= 阅读全文
摘要:
通常项目中使用机器学习建模,特征是需要自己挑选和构造的,其中包括大方面指标以及下面的小指标,需要考虑指标的合理性和量化; 这里说的是当我们有了特征之后,建模过程该如何进行: 导入数据 数据预处理 (这是大工程花费70%精力) 划分数据集:训练集/测试集 选模型,建模调参 训练模型 测试模型 观察测试 阅读全文
摘要:
1. 选择合适的参数 1. 调模参数:指算法中要通过模型训练得出的参数 2. 超参数:指人为可以指定的参数 3. 交叉验证(cross validation) : sklearn.model_selection.cross_val_score(要验证的参数,x_train,y_train,cv(指定 阅读全文
摘要:
通常碰到缺失值时,我们会考虑:缺失的面积有多大?缺失值所在列对目标变量的影响有多大? 一般处理方法有:如果大面积缺失,例如80%,像这样的缺失量我们会将其丢弃或者找其他方法新构造一列代替它 如果小面积缺失,例如40%,很多人会使用统计量来适当的填充它 那么,根据自己平时的理解,我有一些其它的想法 自 阅读全文
摘要:
1. 研究业务需求2. 怎么将数据和业务需求联系上?怎么观察、分析数据?3. 怎么建立和选择特征?4. 如何处理数据呢?5. 如何选择模型呢?6. 如何确定结果的评价指标呢?7. 模型的不足有哪些呢?8. 如何调整模型使它更好呢? 阅读全文