2019 年 5月随笔档案 - 不同的日子丶看不同的云

NLTK——NLTK的正则表达式分词器（nltk.regexp_tokenize）

摘要：在《Python自然语言处理》一书中的P121出现来一段利用NLTK自带的正则表达式分词器——nlt.regexp_tokenize,书中代码为: 1 text = 'That U.S.A. poster-print ex-costs-ed $12.40 ... 8% ? _' 2 pattern 阅读全文

posted @ 2019-05-16 15:45 不同的日子丶看不同的云阅读(2125) 评论(0) 推荐(0) 编辑

Python——Basic Regular Expression Meta-Characters, Including Wildcards, Ranges and Closures

摘要：元字符描述 \ 将下一个字符标记符、或一个向后引用、或一个八进制转义符。例如，“\\n”匹配\n。“\n”匹配换行符。序列“\\”匹配“\”而“\(”则匹配“(”。即相当于多种编程语言中都有的“转义字符”的概念。 ^ 匹配输入字行首。如果设置了RegExp对象的Multiline属性，^也匹配“\ 阅读全文

posted @ 2019-05-15 16:25 不同的日子丶看不同的云阅读(145) 评论(0) 推荐(0) 编辑

Python——String类型操作符

摘要：Python has comprehensive support for processing strings 阅读全文

posted @ 2019-05-15 14:20 不同的日子丶看不同的云阅读(132) 评论(0) 推荐(0) 编辑

NLTK——NLP流程

摘要：The Processing Pipeline: We open a URL and read its HTML content, remove the markup and select a slice of characters; this is then tokenized and optio 阅读全文

posted @ 2019-05-15 11:11 不同的日子丶看不同的云阅读(186) 评论(0) 推荐(0) 编辑