摘要:
1.词型还原与词干提取之间的区别与联系 词型还原:把任何形式的语言词汇还原成一般形式,还原后得到的那个词是具有一定意义的。 词干提取:把任何形式的语言词汇还原成它对应的词干或词根,但词干或词根本身不一定有意义。 联系:目前实现词型还原和词干提取的主流方法均是利用语言中存在的规则或者词典映射。 区别: 阅读全文
摘要:
一. 单进程多线程 1. 使用的模块是Threading。使用join()函数进行阻塞。 1 from pdf2txt import pdfTotxt1, pdfTotxt2 2 import xlrd 3 import os 4 from nltk.corpus import PlaintextC 阅读全文
摘要:
在Python中日期和时间可能涉及多个不同的数据类型和函数,本文将简要介绍一下。 一. 三种不同的数据类型 1. 时间戳:Unix纪元时间戳(time模块中使用)是一个浮点值或整型值,表示子1970年1月1日午夜0点(UTC)以来的秒数。 time.time()函数返回一个浮点值,表示当前时刻的Un 阅读全文
摘要:
这里主要介绍nltk中的一些现成的词干提取器Porter和Lancaster. 1. Porter 2. Lancaster 3. 词形归并器:删除词缀产生的词, 常用的有WordNetLemmatier 从上面的运行结果可以看出,Porter词干提取器的效果比较好。 4. 基于Porter词干提取 阅读全文
摘要:
1. s.find(t): 字符串s中包含t的第一个索引(没找到返回-1) 2. s.rfind(t): 字符串s中包含t的最后一个索引(没找到返回-1) 3. s.index(t): 与s.find(t)功能类似,但没找到引起ValueError 4. s.rindex(t): 余s.rfind( 阅读全文
摘要:
本文主要介绍编程访问网络文本的几种方式。 1. 访问网络资源 >>> from urllib import urlopen >>> url='http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.astype.html 阅读全文
摘要:
本文只是简单罗列一下再机器学习过程中遇到的常用的数学函数。 1. math.fabs(x): 返回x的绝对值。同numpy。 >>> import numpy >>> import math >>> numpy.fabs(-5) 5.0 >>> math.fabs(-5) 5.0 2. x.asty 阅读全文
摘要:
在安装部分Python包时会出现问题:明明已经安装了Python2.7,但无法在注册表相关位置找不到,那该怎么感觉该问题呢? 首先检查你的系统位数,位数不同,解决方案不一样。 1)32位系统:在cmd输入regedit然后将HKEY_LOCAL_MACHINE\SOFTWARE\Python\Pyt 阅读全文
摘要:
本文重点介绍预料库的一般操作。 1. 使用nltk加载自己的预料库 1 >>> from nltk.corpus import PlaintextCorpusReader 2 >>> corpus_root=r'D:/00001/2002/Annual_txt' 3 >>> reader=Plain 阅读全文
摘要:
本文主要总结一下常用的nltk中的处理词语的几个函数以及词频计算和可视化。 1. concordance() 搜索某个特定词语在文章中出现的位置,这里nltk.text.Text类对象有该属性,list对象没有。 2. similar() 搜索文章中与目标具有相同上下文的词,这里nltk.text. 阅读全文