2018 年 5月 18 日随笔档案 - 下路派出所

2018年5月18日

摘要：对文本分词后，接下来需要对分词后的每个term计算一个权重，重要的term应该给与更高的权重。举例来说，“什么产品对减肥帮助最大？”的term weighting结果可能是: “什么 0.1，产品 0.5，对 0.1，减肥 0.8，帮助 0.3，最大 0.2”。Term weighting在文本检索阅读全文

posted @ 2018-05-18 14:45 下路派出所阅读(1302) 评论(0) 推荐(0) 编辑

语言模型

摘要：语言模型：是用来计算一个句子产生概率的概率模型，即P(w_1,w_2,w_3…w_m)，m表示词的总个数。根据贝叶斯公式：P(w_1,w_2,w_3 … w_m) = P(w_1)P(w_2|w_1)P(w_3|w_1,w_2) … P(w_m|w_1,w_2 … w_{m-1})。 N-Gram: 阅读全文

posted @ 2018-05-18 14:26 下路派出所阅读(193) 评论(0) 推荐(0) 编辑

中文分词方法

摘要：基于字符串匹配的分词方法：此方法按照不同的扫描方式，逐个查找词库进行分词。根据扫描方式可细分为：正向最大匹配，反向最大匹配，双向最大匹配，最小切分(即最短路径)。全切分方法：它首先切分出与词库匹配的所有可能的词，再运用统计语言模型决定最优的切分结果。它的优点在于可以解决分词中的歧义问题。下图是一阅读全文

posted @ 2018-05-18 13:59 下路派出所阅读(403) 评论(0) 推荐(0) 编辑

下路派出所

公告