随笔分类 - 机器学习
系统学习梳理机器学习算法,在此存放代码库,供后续参考。
摘要:本文涉及的是特征选择。其实特征选择只是特征工程中的第一步。更深入的是使用特征创造或特征提取来寻找高级特征。 除了对业务的理解,有四种方法可以用来选择特征:过滤法,嵌入法,包装法,和降维算法。 下面是通过代码对除降维之外的算法进行实操。 import pandas as pd data = pd.re
阅读全文
摘要:流程包括:导入库——读取数据——构造缺失数据——0填充——均值填充——回归填充——对比效果。 # 用随机森林回归填补缺失值 import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.data
阅读全文
摘要:应用机器学习调参方法和思路。 from sklearn.datasets import load_breast_cancer from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import
阅读全文
摘要:一、随机森林分类器 关键词:决策树、随机森林分类、print标准格式、交叉验证、plot、scipy-comb、确保随机性、常用接口。 1.1导入库和数据集 from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble i
阅读全文