摘要: Python环境 学习笔记 机器学习是在于给定一个任务,然后在合理的性能度量方案P的前提下,某计算机程序可以自主学习任务T的经验;不断地提供合适、优值、大量的经验,该程序对于任务的性能逐步提高。 机器学习的一般流程是先要收集数据,然后进行数据清洗,建立工程,再数据建模 机器学习可分为有监督学习、无监 阅读全文
posted @ 2020-06-16 12:38 cong! 阅读(81) 评论(0) 推荐(0) 编辑
摘要: 1、什么是回归算法 回归算法是监督型算法的一种,通过利用测试集数据来建立模型,再利用这个模型训练集中的数据进行处理的算法。线性回归旨在寻找到一根线,这个线到到达所有样本点的距离的和是最小的。常用在预测和分类领域。 2、回归和分类的区别: 3、机器学习回归算法可以干什么? (1)房价预测 (2)销售额 阅读全文
posted @ 2020-06-16 12:37 cong! 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 什么是:逻辑回归本质上是一个线性回归模型,是一种用来解决二分类问题的机器学习方法,用于估计某种事物的可能性。 逻辑回归公式: 和线性回归的不同(直接上的不同):逻辑回归中因变量都是分类型变量,而线性回归的是连续性数值变量,并且逻辑 阅读全文
posted @ 2020-06-16 12:35 cong! 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合? 答: (1)可以通过增加样本量,或者提取不重要的特征进行降维来防止过拟合,也可以通过正则化来防止过拟合。 (2)正则化的原理,就是通过约束系数(w)的大小,进而抑制整体的过拟合情况。 2.用logiftic回归来进行实践操作,数据不限。 阅读全文
posted @ 2020-06-16 12:33 cong! 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 from sklearn.featu 阅读全文
posted @ 2020-06-16 12:32 cong! 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 分类:根据一些给定的已知类别标号的样本,训练某种学习机器(即得到某种目标函数),使它能够对未知类别的样本进行分类。 聚类:聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东 阅读全文
posted @ 2020-06-16 11:38 cong! 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地址改成 h 阅读全文
posted @ 2020-06-16 11:37 cong! 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 1.读取 # 1.读取数据集 def read_dataset(): file_path = r'D:\SMSSpamCollection.txt' sms = open(file_path, encoding='utf-8') sms_data = [] sms_label = [] csv_re 阅读全文
posted @ 2020-06-16 11:35 cong! 阅读(153) 评论(0) 推荐(0) 编辑