摘要:
用贝叶斯实现新闻分类 重点,停用词的去除,词向量的构建, TF-IDF原理 停用词可以通过停用词表进行去除 词向量构建,本文是通过简单的词频模型,来构建词向量 IF-IDF 通过词频和关键词提取,来判断一个单词出现的重要性 import pandas as pd import jieba pd.se 阅读全文
摘要:
基于贝叶斯实现拼写检查器 简单,容易,效果好 贝叶斯是一种常见的分类算法,通过先验概率和估计实现后验概率的计算 难点主要是,在单词错误的情况下,估计正确的单词的概率 难点是通过键盘距离可以评估出在输入正确的情况下,输错的概率分布 import re, collections # 求解 argmax 阅读全文