上一页 1 ··· 4 5 6 7 8 9 下一页
摘要: 词性标注 首先介绍Penn Treebank的常用POS标记库 具体使用如下: 阅读全文
posted @ 2018-07-09 10:58 冷血无情康纳酱 阅读(348) 评论(0) 推荐(0) 编辑
摘要: 1.语句分离 主要是用来将句子与句子之间分开 2.分词 3.词干提取 将同一个单词的不同形式统一,使得结果不那么分散 阅读全文
posted @ 2018-07-09 10:41 冷血无情康纳酱 阅读(712) 评论(0) 推荐(0) 编辑
摘要: NLTK是python环境中的一个非常流行的NLP库,这篇记录主要记录NLTK的一些常见操作 1.去除网页html标记 我们常常通过爬虫获取网页信息,然后需要去除网页的html标签。为此我们可以这么做: 2.统计词频 这里使用的tokens就是上面图中的tokens 3.去除停用词 停用词就是类似t 阅读全文
posted @ 2018-07-09 09:31 冷血无情康纳酱 阅读(3897) 评论(0) 推荐(0) 编辑
摘要: 1.首先先介绍常见的元字符 2.python中的re模块以及方法 re.match(pattern,string,flags=0) 尝试匹配,如果成功返回匹配对象,失败则返回none,其中flag可以选择为 re.I 即不区分大小写 re.search(pattern,string,flags=0) 阅读全文
posted @ 2018-07-08 11:03 冷血无情康纳酱 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 标准的查询语句如下 该语句将返回该表中对应列的所有行 如果想要检索表中所有列则可以使用* 由于表中非码属性允许重复,所以发现检索结果中有重复项,可以通过distinct过滤 如果只关心检索结果的前若干行,可以使用limit子句 意思为输出从第a行开始一共b行元素,如果不提供a则从第1行开始 如果需要 阅读全文
posted @ 2018-06-26 00:34 冷血无情康纳酱 阅读(492) 评论(0) 推荐(0) 编辑
摘要: pymysql是python与mysql的一个接口库,这里简单记录一下pymysql的使用方法,环境为python3 本篇主要参考《python3网络爬虫开发实战》中关于mysql的部分内容。,原书作者主页https://cuiqingcai.com/5052.html pymysql官方文档:ht 阅读全文
posted @ 2018-06-22 11:13 冷血无情康纳酱 阅读(159) 评论(0) 推荐(0) 编辑
摘要: 这个学期刚开始学数据库的时候边学MySQL边整理了一些笔记,现在期末爆肝课程设计,顺便回顾一下内容。由于今天已经不早了,就简单记几条今天用到的tips。 一varchar与char与nchar: varchar是可变长的字符串,如果定义成varchar(10),如果输入不足10则以实际长度为准 ch 阅读全文
posted @ 2018-06-22 00:31 冷血无情康纳酱 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 被老师要求,已经是不得不进行图形界面的开发了,因为程序本体使用python写的,所以自然第一次进行图形界面开发就选择了wxpython,wxpython是一款非常优秀的GUI图形库,写起来也相对简洁方便。 安装时直接pip install wxpython即可。 demo程序以及其它官方相关文件下载 阅读全文
posted @ 2018-06-19 23:14 冷血无情康纳酱 阅读(226) 评论(0) 推荐(0) 编辑
摘要: pyinstaller可以把.py脚本保存成.exe可执行文件。 安装时使用pip install pyinstaller即可 基本语法:pyinstaller options myscript.py常用的可选参数如下:--onefile 将结果打包成一个可执行文件--onedir 将所有结果打包到 阅读全文
posted @ 2018-06-18 15:12 冷血无情康纳酱 阅读(3007) 评论(0) 推荐(0) 编辑
摘要: Anaconda是一款非常不错的科学python开发环境,帮助我们维护管理多个不同的python环境,从而我们可以对不同的环境安装不同的包,便于管理。 为了进行环境管理,Anaconda有很多命令经常需要使用,这里做一个记录,免得总问度娘(虽然内容就是度娘上到处扒的) 这就是anaconda命令行, 阅读全文
posted @ 2018-06-18 09:48 冷血无情康纳酱 阅读(226) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 下一页