监督学习的知识(参考)
基础
目标
利用一组带有标签的数据,学习从输入到输出的映射,然后将这种映射关系应用到未知数据上,达到分类或者回归的目标
分类:输出离散,为分类
回归:输出连续,为回归
分类
评价标准
精确率,二分类为例,表示的是预测为正的样本中有多少是真正的正样本。把正预测为正(TP),把负预测为正(FP)。P=TP/(TP+FP).
召回率:针对原样本而言,表示的是样本中的正例有多少被预测正确了。正预测为正(TP),正预测为负(FN)。R=TP/(TP+FN)。
sklearn的分类算法
并未封装在一个子模块中
分类函数包括:k近邻(knn),朴素贝叶斯(naivebayes),支持向量机(svm),决策树(decision tree),神经网络(Neural networks)等,其中有线性分类器、非线性分类器
应用:
金融:贷款是否批准
医疗欺诈:肿瘤恶性良性
欺诈检测:一笔银行的交易是否存在欺诈
网页分类:网页的所属类别,财经还是娱乐
knn分类器
计算待分类数据与已有数据的距离,选取前k个距离小的值,以少数服从多数的原则,查看k个数据对应的分类,以此作为新数据的分类。
sklearn.neighbors.KNeighborsClassifier
决策树
本质上寻找一种对特征空间上的划分,旨在构建一个训练数据拟合的好且复杂度小的决策树。
sklearn .tree.DecisionTreeClassifier
朴素贝叶斯
以贝叶斯定理为基础的多分类的分类器
对于给定数据,首先基于特征的条件独立性假设,学习输入输出的联合概率分布,然后基于此模型,对给定的输入,利用定理求出后验概率最大的输出。
高斯朴素贝叶斯naive_bayes.GaussianNB
针对多项式模型的朴素贝叶斯分类器naive_bayes.GaussianNB
针对多元伯努利模型的朴素贝叶斯分类器
区别在于假设某一特征的所有属于某个类别的观测值符合特定分布。
回归
寻找两个变量之间或者多个变量之间的关系,建立模型。
两个子模块,sklearn.linear_model和sklearn.preprocessing。
普通线性回归
岭回归ridge
Lasso
回归方法常用于带有时序信息的数据进行预测或者趋势拟合,常用在金融及其他涉及时间序列分析的领域
股票趋势预测
交通导流预测
线性回归的实际用途
1、预测
2、量化变量之间的相关性的强度等