摘要: 字典类型和CountVectorizer文本类型的特征基本相同,不同的是输出的结果类型,字典直接返回的键值对。 以下代码用jupyter分块运行 运行结果含义参考上一篇:https://www.cnblogs.com/future-panda/p/16809957.html 1 from sklea 阅读全文
posted @ 2022-10-20 15:43 许个未来— 阅读(52) 评论(0) 推荐(0) 编辑
摘要: CountVectorizer是文本特征提取的一种方式:本文为稀疏矩阵具体含义 其中new_data所输出的值用toarray()可以转化为稀疏矩阵 new_data.shape():输出的是稀疏矩阵的维度(列表长度X词典个数) 阅读全文
posted @ 2022-10-20 15:04 许个未来— 阅读(487) 评论(0) 推荐(0) 编辑
摘要: 训练集和测试集的划分 Ytrain:指的是缺失值那行所对应的有值的部分 Ytest:指的是缺失值,需要预测的部分(一般的监督学习不会预测Ytest,因为我们是预测该缺失的数据,所以Ytest不用做比较,直接进行预测填补缺失值) Xtrain:指的是未缺失部分所对应的特征值 Xtest:指的是缺失部分 阅读全文
posted @ 2022-10-20 09:55 许个未来— 阅读(399) 评论(0) 推荐(0) 编辑