2020年6月9日

第十三次作业-垃圾邮件分类2

摘要: 1.读取 file_path = r'C:\Users\zgz\机器学习\RobitStu\SMSSpamCollection' email = open(file_path,'r',encoding='utf-8') # 打开文件 email_data = [] # 列表存邮件 email_lab 阅读全文

posted @ 2020-06-09 10:13 独立的猫 阅读(178) 评论(0) 推荐(0) 编辑

12.朴素贝叶斯-垃圾邮件分类

摘要: 作业补交 1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地 阅读全文

posted @ 2020-06-09 09:37 独立的猫 阅读(148) 评论(0) 推荐(0) 编辑

9、主成分分析

摘要: 作业补交 一、用自己的话描述出其本身的含义: 1、特征选择:从原始数据中挑选出更具代表性,分类性能更好的特征,提高机器的性能 2、PCA:将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的信息量最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。 二、并用自己的话阐述出两者的主要 阅读全文

posted @ 2020-06-09 09:11 独立的猫 阅读(125) 评论(0) 推荐(0) 编辑

5.线性回归算法

摘要: 作业补交 1.本节重点知识点用自己的话总结出来,可以配上图片,以及说明该知识点的重要性 2.思考线性回归算法可以用来做什么?(大家尽量不要写重复) 寻找到数据与数据之间的规律所在,从而就可以模拟出结果,也就是对结果进行预测。解决的就是通过已知的数据得到未知的结果。例如:对房价的预测、判断信用评价、电 阅读全文

posted @ 2020-06-09 09:01 独立的猫 阅读(111) 评论(0) 推荐(0) 编辑

3.K均值算法

摘要: 作业补交 1). 扑克牌手动演练k均值聚类过程:>30张牌,3类 2). *自主编写K-means算法 ,以鸢尾花花瓣长度数据做聚类,并用散点图显示。(加分题) 3). 用sklearn.cluster.KMeans,鸢尾花花瓣长度数据做聚类,并用散点图显示. 4). 鸢尾花完整数据做聚类并用散点图 阅读全文

posted @ 2020-06-09 08:42 独立的猫 阅读(114) 评论(0) 推荐(0) 编辑

导航