自然语言处理3.7——用正则表达式为文本分词
摘要:
1、分词的简单方法: 在空格字符处分割文本是文本分词最简单的方法。考虑一下摘自《爱丽丝梦游仙境》中的文本。 可以使用raw.split()在空格符处分割原始文本。使用正则表达式能做同样的事情,匹配字符串中的所有空白符是远远不够的,因为这会导致结果中包含'\n'换行符。需要同时匹配任何数量的空格符、制 阅读全文
posted @ 2016-10-21 19:42 波比12 阅读(4886) 评论(0) 推荐(1) 编辑