2022 年 10月 20 日随笔档案 - 许个未来—

2022年10月20日

摘要：字典类型和CountVectorizer文本类型的特征基本相同，不同的是输出的结果类型，字典直接返回的键值对。以下代码用jupyter分块运行运行结果含义参考上一篇：https://www.cnblogs.com/future-panda/p/16809957.html 1 from sklea 阅读全文

posted @ 2022-10-20 15:43 许个未来— 阅读(52) 评论(0) 推荐(0) 编辑

机器学习之特征提取（一）—— CountVectorizer文本特征提取

摘要： CountVectorizer是文本特征提取的一种方式：本文为稀疏矩阵具体含义其中new_data所输出的值用toarray()可以转化为稀疏矩阵 new_data.shape():输出的是稀疏矩阵的维度（列表长度X词典个数）阅读全文

posted @ 2022-10-20 15:04 许个未来— 阅读(487) 评论(0) 推荐(0) 编辑

机器学习中用随机森林（决策树）预测缺失值

摘要：训练集和测试集的划分 Ytrain：指的是缺失值那行所对应的有值的部分 Ytest：指的是缺失值，需要预测的部分（一般的监督学习不会预测Ytest，因为我们是预测该缺失的数据，所以Ytest不用做比较，直接进行预测填补缺失值） Xtrain：指的是未缺失部分所对应的特征值 Xtest：指的是缺失部分阅读全文

posted @ 2022-10-20 09:55 许个未来— 阅读(399) 评论(0) 推荐(0) 编辑

future-panda

公告