摘要: 用贝叶斯实现新闻分类 重点,停用词的去除,词向量的构建, TF-IDF原理 停用词可以通过停用词表进行去除 词向量构建,本文是通过简单的词频模型,来构建词向量 IF-IDF 通过词频和关键词提取,来判断一个单词出现的重要性 import pandas as pd import jieba pd.se 阅读全文
posted @ 2020-06-10 10:52 心远志高 阅读(557) 评论(0) 推荐(0) 编辑
摘要: 基于贝叶斯实现拼写检查器 简单,容易,效果好 贝叶斯是一种常见的分类算法,通过先验概率和估计实现后验概率的计算 难点主要是,在单词错误的情况下,估计正确的单词的概率 难点是通过键盘距离可以评估出在输入正确的情况下,输错的概率分布 import re, collections # 求解 argmax 阅读全文
posted @ 2020-06-10 10:45 心远志高 阅读(415) 评论(0) 推荐(0) 编辑