05 2020 档案

摘要:1.读取 1 import nltk 2 from nltk.corpus import stopwords 3 from nltk.stem import WordNetLemmatizer 4 import csv 5 import numpy as np 6 from sklearn.naiv 阅读全文
posted @ 2020-05-21 09:15 酒大暗 阅读(278) 评论(0) 推荐(0)
摘要:1.1 读邮件数据集文件,提取邮件本身与标签。 以numpy数组形式存储: 1 import csv 2 # import nltk 3 from nltk.corpus import stopwords # 停用词 4 from nltk.stem import WordNetLemmatizer 阅读全文
posted @ 2020-05-14 10:43 酒大暗 阅读(231) 评论(0) 推荐(0)
摘要:1.理解分类与监督学习、聚类与无监督学习。 【简述分类与聚类的联系与区别】 (1)联系:都是对数据集进行分类 (2)区别 · 分类:已知数据集的类别个数。如泰坦尼克号人员存活可能性(生/亡) · 聚类:未知数据集的类别个数,将相似度高的归类到一起。如划分应届毕业生平均工资水平 【简述什么是监督学习与 阅读全文
posted @ 2020-05-08 08:46 酒大暗 阅读(225) 评论(0) 推荐(1)