摘要: 一、为什么要规范化 在做信息检索的时候,一般都是精确匹配,如果不做规范化,难以做查询,比如用U.S.A去检索文本,结果文本里实际上存的是USA,那么实际上应该能查到的结果查不到了。 所以需要对所有内容做规范化,以实现检索的有效性。 二、怎么规范化 在去掉(*v*)ing时只有当(*v*)中含有元音时 阅读全文
posted @ 2018-07-29 22:05 A_Present 阅读(522) 评论(0) 推荐(0) 编辑
摘要: 一、如何定义一个单词 在统计一句话有多少个单词的时候,首要问题是如何定义一个单词,通常有三种情况: 以上三种在不同任务下有不同的处理方法。 二、统计什么信息 在统计时,我们统计如下信息: 一般如下表示: corpora:语料库,也就是文本的数据集 N:token的数目 V:单词表,也就是type的集 阅读全文
posted @ 2018-07-29 20:05 A_Present 阅读(426) 评论(0) 推荐(0) 编辑
摘要: [^e^]:表示不是e也不是^ a^b: [^e^]:表示不是e也不是^ a^b: 阅读全文
posted @ 2018-07-29 16:05 A_Present 阅读(295) 评论(0) 推荐(0) 编辑