摘要:
决策树:从根节点开始一步步到叶子节点,所有的数据最后都落到叶子节点里面,既可以用来做分类也可以用来做回归 树的组成: 1.根节点(第一个参数) 2.非子叶节点与分支: 中间过程 3. 子叶节点,最终的决策结果 对于一些连续的变量来说,通常使用一刀切的方式。 决策树的训练与测试 训练阶段通过构造一棵树
阅读全文
posted @ 2019-01-15 21:00
python我的最爱
阅读(979)
推荐(0)
编辑
摘要:
1. np.random_choice(array, len) 进行随机的数据选择,array表示抽取的对象,len表示抽取样本的个数 数据的下采样是对多的数据进行np.random.choice 随机的抽取,抽取出于少的样本相同的索引个数,将两组索引进行合并,从原始数据中重新取值
阅读全文
posted @ 2019-01-15 13:18
python我的最爱
阅读(1108)
推荐(0)
编辑
摘要:
在前几个博客,我们将各个部分进行了拆分,现在写一个整体的代码 1.统计两种标签的个数,画直方图 2. 变量与标签的拆分, 训练集与测试集数据的拆分(train_test_split), 对训练数据进行下采样 3. 使用交叉验证进行超参数正则化因子的选择 KFold 4. 混淆矩阵的绘制,即准确度,召
阅读全文
posted @ 2019-01-15 13:14
python我的最爱
阅读(684)
推荐(0)
编辑
摘要:
from imblearn.over_sampling import SMOTE # 导入 overstamp = SMOTE(random_state=0) # 对训练集的数据进行上采样,测试集的数据不需要SMOTE_train_x, SMOTE_train_y = overstamp.fit_s
阅读全文
posted @ 2019-01-15 13:01
python我的最爱
阅读(5277)
推荐(0)
编辑
摘要:
1.lr.predict_proba(under_text_x) 获得的是正负的概率值 在sklearn逻辑回归的计算过程中,使用的是大于0.5的是正值,小于0.5的是负值,我们使用使用不同的概率结果判定来研究概率阈值对结果的影响 从图中我们可以看出,阈值越小,被判为正的越多,即大于阈值的就是为正,
阅读全文
posted @ 2019-01-15 12:42
python我的最爱
阅读(9483)
推荐(0)
编辑
摘要:
1. itertools.product 进行数据的多种组合 intertools.product(range(0, 1), range(0, 1)) 组合的情况[0, 0], [0, 1], [1, 0], [1, 1] 2. confusion_matrix(test_y, pred_y) #
阅读全文
posted @ 2019-01-15 11:53
python我的最爱
阅读(1599)
推荐(0)
编辑
摘要:
1. train_test_split(under_x, under_y, test_size=0.3, random_state=0) # under_x, under_y 表示输入数据, test_size表示切分的训练集和测试集的比例, random_state 随机种子 2. KFold(l
阅读全文
posted @ 2019-01-15 10:45
python我的最爱
阅读(1191)
推荐(0)
编辑