摘要: 我们使用了两种提取方式 1 .词频统计 2. 关键字提取 关键字提取的方式效果更好一些 第一步:数据读取 第二步:数据预处理,把每一行的内容拆分成一个个词 第三步: 与停用词库进行比对,去除内容中的停用词 ‘ 第四步构建模型,这里的数据我们需要做一步‘ ’.join的重连接,对于分类标签需要转换为数 阅读全文
posted @ 2018-08-22 23:18 python我的最爱 阅读(365) 评论(0) 推荐(0) 编辑
摘要: p(h+|D) = p(h) * p(D|h+) / p(D) 表示一个单词输错的概率 = 单词的词频 * 一个输错单词的可能的正确单词的数量 p(h-|D) = p(h) * p(D|h-) / p(D) 第一步:读取词库,通过正则找出每个单词,并统计单词的词频 第二步 : 模拟一个错误单词的其他 阅读全文
posted @ 2018-08-22 15:29 python我的最爱 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 虽然Logistic回归叫回归,但是其实它是一个二分类或者多分类问题 这里的话我们使用信用诈骗的数据进行分析 第一步:导入数据,Amount的数值较大,后续将进行(-1,1)的归一化 第二步: 对正常和欺诈的数目进行查看,正常样本的数目远大于欺诈样本,这个时候可以使用下采样或者过采样 第三步:将am 阅读全文
posted @ 2018-08-22 11:03 python我的最爱 阅读(304) 评论(0) 推荐(0) 编辑