摘要:
一、为什么要规范化 在做信息检索的时候,一般都是精确匹配,如果不做规范化,难以做查询,比如用U.S.A去检索文本,结果文本里实际上存的是USA,那么实际上应该能查到的结果查不到了。 所以需要对所有内容做规范化,以实现检索的有效性。 二、怎么规范化 在去掉(*v*)ing时只有当(*v*)中含有元音时 阅读全文
摘要:
一、如何定义一个单词 在统计一句话有多少个单词的时候,首要问题是如何定义一个单词,通常有三种情况: 以上三种在不同任务下有不同的处理方法。 二、统计什么信息 在统计时,我们统计如下信息: 一般如下表示: corpora:语料库,也就是文本的数据集 N:token的数目 V:单词表,也就是type的集 阅读全文
摘要:
[^e^]:表示不是e也不是^ a^b: [^e^]:表示不是e也不是^ a^b: 阅读全文