python我的最爱

2019年1月17日

摘要： from sklearn import tree from sklearn.cross_validation import train_test_split # 数据拆分 train_x, test_x, train_y, test_y = train_test_split(housing.data, housing.target, test_size=0.1, random_state=42... 阅读全文

posted @ 2019-01-17 09:48 python我的最爱阅读(498) 评论(0) 推荐(0) 编辑

机器学习入门-决策树的可视化展示

摘要： from sklearn import tree from sklearn.datasets.california_housing import fetch_california_housing housing = fetch_california_housing() dtr = tree.Deci 阅读全文

posted @ 2019-01-17 09:35 python我的最爱阅读(2014) 评论(0) 推荐(0) 编辑

2019年1月15日

机器学习入门-决策树算法

摘要：决策树：从根节点开始一步步到叶子节点，所有的数据最后都落到叶子节点里面，既可以用来做分类也可以用来做回归树的组成： 1.根节点(第一个参数) 2.非子叶节点与分支: 中间过程 3. 子叶节点，最终的决策结果对于一些连续的变量来说，通常使用一刀切的方式。决策树的训练与测试训练阶段通过构造一棵树阅读全文

posted @ 2019-01-15 21:00 python我的最爱阅读(979) 评论(0) 推荐(0) 编辑

机器学习入门-数据下采样 np.random_choice

摘要： 1. np.random_choice(array, len) 进行随机的数据选择，array表示抽取的对象，len表示抽取样本的个数数据的下采样是对多的数据进行np.random.choice 随机的抽取，抽取出于少的样本相同的索引个数，将两组索引进行合并，从原始数据中重新取值阅读全文

posted @ 2019-01-15 13:18 python我的最爱阅读(1108) 评论(0) 推荐(0) 编辑

机器学习入门-信用卡欺诈数据案例

摘要：在前几个博客，我们将各个部分进行了拆分，现在写一个整体的代码 1.统计两种标签的个数，画直方图 2. 变量与标签的拆分，训练集与测试集数据的拆分(train_test_split)，对训练数据进行下采样 3. 使用交叉验证进行超参数正则化因子的选择 KFold 4. 混淆矩阵的绘制，即准确度，召阅读全文

posted @ 2019-01-15 13:14 python我的最爱阅读(684) 评论(0) 推荐(0) 编辑

机器学习入门-数据过采样（上采样）1. SMOTE

摘要： from imblearn.over_sampling import SMOTE # 导入 overstamp = SMOTE(random_state=0) # 对训练集的数据进行上采样，测试集的数据不需要SMOTE_train_x, SMOTE_train_y = overstamp.fit_s 阅读全文

posted @ 2019-01-15 13:01 python我的最爱阅读(5277) 评论(0) 推荐(0) 编辑

机器学习入门-概率阈值的逻辑回归对准确度和召回率的影响 lr.predict_proba(获得预测样本的概率值)

摘要： 1.lr.predict_proba(under_text_x) 获得的是正负的概率值在sklearn逻辑回归的计算过程中，使用的是大于0.5的是正值，小于0.5的是负值，我们使用使用不同的概率结果判定来研究概率阈值对结果的影响从图中我们可以看出，阈值越小，被判为正的越多，即大于阈值的就是为正，阅读全文

posted @ 2019-01-15 12:42 python我的最爱阅读(9483) 评论(0) 推荐(0) 编辑

机器学习入门-混淆矩阵-准确度-召回率-F1score 1.itertools.product 2. confusion_matrix(test_y, pred_y)

摘要： 1. itertools.product 进行数据的多种组合 intertools.product(range(0, 1), range(0, 1)) 组合的情况[0, 0], [0, 1], [1, 0], [1, 1] 2. confusion_matrix(test_y, pred_y) # 阅读全文

posted @ 2019-01-15 11:53 python我的最爱阅读(1599) 评论(0) 推荐(0) 编辑

机器学习入门-交叉验证选择参数(数据切分)train_test_split(under_x, under_y, test_size, random_state), (交叉验证的数据切分)KFold， recall_score(召回率)

摘要： 1. train_test_split(under_x, under_y, test_size=0.3, random_state=0) # under_x, under_y 表示输入数据, test_size表示切分的训练集和测试集的比例， random_state 随机种子 2. KFold(l 阅读全文

posted @ 2019-01-15 10:45 python我的最爱阅读(1191) 评论(0) 推荐(0) 编辑

2019年1月12日

机器学习入门-逻辑回归算法

摘要：梯度下降：对theta1， theta2， theta3 分别求最快梯度下降的方向，然后根据给定的学习率，进行theta1， theta2， theta3的参数跟新假定目标函数 J(theta) = 1/2m * np.sum(h(theta) - y)^2 / len(X) 梯度下降的策略分为阅读全文

posted @ 2019-01-12 18:07 python我的最爱阅读(468) 评论(0) 推荐(0) 编辑