随笔分类 -  Python NLTK

NLTK——NLTK的正则表达式分词器(nltk.regexp_tokenize)
摘要:在《Python自然语言处理》一书中的P121出现来一段利用NLTK自带的正则表达式分词器——nlt.regexp_tokenize,书中代码为: 1 text = 'That U.S.A. poster-print ex-costs-ed $12.40 ... 8% ? _' 2 pattern 阅读全文
posted @ 2019-05-16 15:45 不同的日子丶看不同的云 阅读(2125) 评论(0) 推荐(0) 编辑
Python——Basic Regular Expression Meta-Characters, Including Wildcards, Ranges and Closures
摘要:元字符 描述 \ 将下一个字符标记符、或一个向后引用、或一个八进制转义符。例如,“\\n”匹配\n。“\n”匹配换行符。序列“\\”匹配“\”而“\(”则匹配“(”。即相当于多种编程语言中都有的“转义字符”的概念。 ^ 匹配输入字行首。如果设置了RegExp对象的Multiline属性,^也匹配“\ 阅读全文
posted @ 2019-05-15 16:25 不同的日子丶看不同的云 阅读(145) 评论(0) 推荐(0) 编辑
Python——String类型操作符
摘要:Python has comprehensive support for processing strings 阅读全文
posted @ 2019-05-15 14:20 不同的日子丶看不同的云 阅读(132) 评论(0) 推荐(0) 编辑
NLTK——NLP流程
摘要:The Processing Pipeline: We open a URL and read its HTML content, remove the markup and select a slice of characters; this is then tokenized and optio 阅读全文
posted @ 2019-05-15 11:11 不同的日子丶看不同的云 阅读(186) 评论(0) 推荐(0) 编辑
NLTK——常用函数
摘要:1.Functions Defined for NLTK's Frequency Distributions 2.Some Word Comparison Operators 3.Basic Corpus Functionality defined in NLTK 4.NLTK's Conditio 阅读全文
posted @ 2019-04-26 15:55 不同的日子丶看不同的云 阅读(649) 评论(0) 推荐(1) 编辑
Python NLTK——代码重用,F5运行py文件cmd闪退,invalid syntax
摘要:打开IDLE,对代码进行保存(Ctrl+S)后,代码都是可以运行的。 但是打开文件就会弹出cmd并闪退,截了好几次图发现报的是Invalid syntax的错。 后来发现应该在IDLE中新建一个file,正确的格式应该是这样的。 保存后运行.py文件仍然是闪退,不过没有报错,但Run不会,所以就加了 阅读全文
posted @ 2018-10-23 11:11 不同的日子丶看不同的云 阅读(495) 评论(0) 推荐(0) 编辑
Python NLTK——python与nltk配置
摘要:按照《Python自然语言处理》中的步骤安装Python后nltk总是部署失败,出现如下提示: 所以最后还是pip能部署成功。 环境:win7(X64)+python3.6.0。python下载地址:https://www.python.org/,在网上随便找一个教程安装上即可(安装时先看看电脑是否 阅读全文
posted @ 2018-10-17 15:22 不同的日子丶看不同的云 阅读(3469) 评论(0) 推荐(1) 编辑