2016年10月21日

自然语言处理3.7——用正则表达式为文本分词

摘要: 1、分词的简单方法: 在空格字符处分割文本是文本分词最简单的方法。考虑一下摘自《爱丽丝梦游仙境》中的文本。 可以使用raw.split()在空格符处分割原始文本。使用正则表达式能做同样的事情,匹配字符串中的所有空白符是远远不够的,因为这会导致结果中包含'\n'换行符。需要同时匹配任何数量的空格符、制 阅读全文

posted @ 2016-10-21 19:42 波比12 阅读(4839) 评论(0) 推荐(1) 编辑

自然语言处理3.6——规范化文本

摘要: 在前面的例子中,在处理文本词汇前经常要将文本转化成小写,即(w.lower() for w in words).通过lower()将文本规范化为小写,这样一来,"The"和"the"的区别被忽略了。 我们常常进行更多的尝试,例如去掉文本中的所有词缀已经提取词干的任务等。下一步是确保结果形式是字典中确 阅读全文

posted @ 2016-10-21 19:03 波比12 阅读(1487) 评论(0) 推荐(0) 编辑

导航