05 2020 档案

摘要:1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, 阅读全文
posted @ 2020-05-23 21:29 ling9709 阅读(137) 评论(0) 推荐(0)
摘要:1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl 阅读全文
posted @ 2020-05-15 00:27 ling9709 阅读(226) 评论(0) 推荐(0)
摘要:1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 分类与聚类:分类是已经知道类别,具体的类别是哪一些,通过对已知的的数据进行训练,找到不同类的特征。 聚类是不知道会分成多少类,通过聚类分析将数据或者说用户聚合成几个群体,他不需要对数据进行训练 阅读全文
posted @ 2020-05-13 20:39 ling9709 阅读(284) 评论(0) 推荐(0)
摘要:一、用自己的话描述出其本身的含义: 1、特征选择 特征选择也叫特征子集选择。分为有监督学习和无监督学习。从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的。 是从原始特征中选择出一些最有效特征以降低数据集维 阅读全文
posted @ 2020-05-04 18:58 ling9709 阅读(171) 评论(0) 推荐(0)