05 2019 档案
NLTK——NLTK的正则表达式分词器(nltk.regexp_tokenize)
摘要:在《Python自然语言处理》一书中的P121出现来一段利用NLTK自带的正则表达式分词器——nlt.regexp_tokenize,书中代码为: 1 text = 'That U.S.A. poster-print ex-costs-ed $12.40 ... 8% ? _' 2 pattern 阅读全文
posted @ 2019-05-16 15:45 不同的日子丶看不同的云 阅读(2125) 评论(0) 推荐(0) 编辑
Python——Basic Regular Expression Meta-Characters, Including Wildcards, Ranges and Closures
摘要:元字符 描述 \ 将下一个字符标记符、或一个向后引用、或一个八进制转义符。例如,“\\n”匹配\n。“\n”匹配换行符。序列“\\”匹配“\”而“\(”则匹配“(”。即相当于多种编程语言中都有的“转义字符”的概念。 ^ 匹配输入字行首。如果设置了RegExp对象的Multiline属性,^也匹配“\ 阅读全文
posted @ 2019-05-15 16:25 不同的日子丶看不同的云 阅读(145) 评论(0) 推荐(0) 编辑
Python——String类型操作符
摘要:Python has comprehensive support for processing strings 阅读全文
posted @ 2019-05-15 14:20 不同的日子丶看不同的云 阅读(132) 评论(0) 推荐(0) 编辑
NLTK——NLP流程
摘要:The Processing Pipeline: We open a URL and read its HTML content, remove the markup and select a slice of characters; this is then tokenized and optio 阅读全文
posted @ 2019-05-15 11:11 不同的日子丶看不同的云 阅读(186) 评论(0) 推荐(0) 编辑