10 2022 档案

摘要:TypeError :'NoneType object is not iterable :错误的意思是:没有类型可迭代。 1.当if条件没有考虑到else的情况的时候,函数默认返回None 需要加一个return ‘ ’。 if分支情况在代码量比较多的时候需要注意考虑else的情况,不然容易出现不易 阅读全文
posted @ 2022-10-28 11:26 许个未来— 阅读(1917) 评论(0) 推荐(0) 编辑
摘要:1.ROC曲线是什么? ROC 曲线是英文“receiver operating characteristic curve”的简称,对应的中文含义是“受试者工作特征曲线”。简单讲就是对不同的阈值形成混淆矩阵,从而连点成线。 2.举例说明 N 为真实的负类样本数量,P 表示真实的正类样本数量。 有10 阅读全文
posted @ 2022-10-21 14:21 许个未来— 阅读(259) 评论(0) 推荐(0) 编辑
摘要:1.什么是TF-IDF? TF =(某词在文档中出现的次数/文档的总词量) IDF= log e为底(语料库中文档总数/包含该词的文档数+1), +1的原因是避免分母为0 (也被称为逆文档频率,因为是总数除以包含文档数) TF-IDF = TFxIDF TF-IDF值越大表示该特征词对这个文本的重要 阅读全文
posted @ 2022-10-21 10:55 许个未来— 阅读(1550) 评论(0) 推荐(0) 编辑
摘要:字典类型和CountVectorizer文本类型的特征基本相同,不同的是输出的结果类型,字典直接返回的键值对。 以下代码用jupyter分块运行 运行结果含义参考上一篇:https://www.cnblogs.com/future-panda/p/16809957.html 1 from sklea 阅读全文
posted @ 2022-10-20 15:43 许个未来— 阅读(61) 评论(0) 推荐(0) 编辑
摘要:CountVectorizer是文本特征提取的一种方式:本文为稀疏矩阵具体含义 其中new_data所输出的值用toarray()可以转化为稀疏矩阵 new_data.shape():输出的是稀疏矩阵的维度(列表长度X词典个数) 阅读全文
posted @ 2022-10-20 15:04 许个未来— 阅读(536) 评论(0) 推荐(0) 编辑
摘要:训练集和测试集的划分 Ytrain:指的是缺失值那行所对应的有值的部分 Ytest:指的是缺失值,需要预测的部分(一般的监督学习不会预测Ytest,因为我们是预测该缺失的数据,所以Ytest不用做比较,直接进行预测填补缺失值) Xtrain:指的是未缺失部分所对应的特征值 Xtest:指的是缺失部分 阅读全文
posted @ 2022-10-20 09:55 许个未来— 阅读(438) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示