摘要: GitHub仓库 请指教 计算模块接口的设计与实现过程 步骤 运用cppjieba对文本进行分词。 对分词结果进行降噪处理 计算余弦相似度 理论知识 一、词袋模型 文档内容中出现频率越高的词项,越能描述该文档。因此可以统计每个词项在每篇文档中出现的次数,即词项频率,记为 ,其中t 为词项,d为文档。 阅读全文
posted @ 2020-09-17 21:24 Molly-Woo 阅读(145) 评论(0) 推荐(2) 编辑