04 2018 档案

摘要:一 进程终止: ⼀个进程可以登记若⼲个(具体⾃⼰验证⼀下)个函数,这些函数由exit⾃动调⽤,这些函数被称为终⽌处理函数, atexit函数可以登记这些函数。 exit调⽤终⽌处理函数的顺序和atexit登记的顺序相反,如果⼀个函数被多次登记,也会被多次调⽤。 以下函数的调用时程序异常或者正常终止: 阅读全文
posted @ 2018-04-30 21:17 red_leaf_412 阅读(182) 评论(0) 推荐(0) 编辑
摘要:linux系统相关的文件信息包含在/etc/passwd文件和/etc/group中。每次登录linux系统以及每次执行ls -l命令时都要使用口令文件。这些字段都包含在<pwd.h>中定义的passwd结构中。 struct passwd { char * pw_name; /* Username 阅读全文
posted @ 2018-04-28 21:18 red_leaf_412 阅读(689) 评论(0) 推荐(0) 编辑
摘要:前面介绍对文件进行操作的时候,使用的是open,read,write函数。这一章将要介绍基于流的文件操作方法:fopen,fread,fwrite。这两种方式的区别是什么呢。1种是缓冲文件系统,一种是非缓冲文件系统 缓冲文件系统就是采用fopen,fread,fwrite,fgetc,fputc,f 阅读全文
posted @ 2018-04-23 22:01 red_leaf_412 阅读(352) 评论(0) 推荐(0) 编辑
摘要:创建目录: 用mkdir函数创建目录: mkdir(const char *pathname, mode_t mode) 参数mode有下列的组合: S_ISUID 04000 文件的执行时设置用户ID(set user-id on execution)位 S_ISGID 02000 文件的执行时设 阅读全文
posted @ 2018-04-21 17:03 red_leaf_412 阅读(515) 评论(0) 推荐(0) 编辑
摘要:从这一章开始将进入到关键部分:模式识别。这一章主要解决下面几个问题 1 怎样才能识别出语言数据中明显用于分类的特性 2 怎样才能构建用于自动执行语言处理任务的语言模型 3 从这些模型中我们可以学到那些关于语言的知识。 监督式分类: 分类是为给定的输入选择正确的类标签。就好比身份证上的身份证号。每个身 阅读全文
posted @ 2018-04-18 15:56 red_leaf_412 阅读(1914) 评论(0) 推荐(0) 编辑
摘要:将Timestamp转换为Period 通过使用to_period方法,可以将由时间戳索引的Series和DataFrame对象转换为以时期索引 rng=pd.date_range('1/1/2000',periods=3,freq='M') ts=Series(randn(3),index=rng 阅读全文
posted @ 2018-04-16 22:45 red_leaf_412 阅读(306) 评论(0) 推荐(0) 编辑
摘要:在上一章中介绍了用pos_tag进行词性标注。这一章将要介绍专门的标注器。 首先来看一元标注器,一元标注器利用一种简单的统计算法,对每个标识符分配最有可能的标记,建立一元标注器的技术称为训练。 from nltk.corpus import brown brown_tagged_sents=brow 阅读全文
posted @ 2018-04-15 22:46 red_leaf_412 阅读(1226) 评论(0) 推荐(0) 编辑
摘要:在处理很多数据的时候,我们都要用到时间的概念。比如时间戳,固定时期或者时间间隔。pandas提供了一组标准的时间序列处理工具和数据算法。 在python中datetime.datetime模块是用的最多的模块。比如使用datetime.datetime.now()就得到了当前的时间2018-04-1 阅读全文
posted @ 2018-04-14 15:26 red_leaf_412 阅读(1456) 评论(1) 推荐(0) 编辑
摘要:在一段句子中是由各种词汇组成的。有名词,动词,形容词和副词。要理解这些句子,首先就需要将这些词类识别出来。将词汇按它们的词性(parts-of-speech,POS)分类并相应地对它们进行标注。这个过程叫做词性标注。 要进行词性标注,就需要用到词性标注器(part-of-speech tagger) 阅读全文
posted @ 2018-04-09 22:07 red_leaf_412 阅读(4843) 评论(0) 推荐(0) 编辑
摘要:在数据库中,我们可以对数据进行分类,聚合运算。例如groupby操作。在pandas中同样也有类似的功能。通过这些聚合,分组操作,我们可以很容易的对数据进行转换,清洗,运算。比如如下图,首先通过不同的键值进行分类,然后对各个分类进行求和运算。 我们来看实际的例子,首先生成一组数据如下 df=Data 阅读全文
posted @ 2018-04-08 15:51 red_leaf_412 阅读(894) 评论(1) 推荐(0) 编辑
摘要:介绍: 多数项目都是包含很多的逻辑处理,只有少部分的文字文本处理。编程语言非常擅长这类项目。但是有一些项目只包含了少量的逻辑处理,大量的文本数据处理。对于这些任务,我们期望有一个工具能够很好的处理这些文本问题。模板引擎就是这样的一个工具。在这个章节中,我们会建立一个模板引擎。 对于富文本来说,多数的 阅读全文
posted @ 2018-04-07 12:46 red_leaf_412 阅读(427) 评论(0) 推荐(0) 编辑
摘要:前面介绍了很多NLTK中携带的词典资源,这些词典资源对于我们处理文本是有大的作用的,比如实现这样一个功能,寻找由egivronl几个字母组成的单词。且组成的单词每个字母的次数不得超过egivronl中字母出现的次数,每个单词的长度要大于6. 要实现这样的一个功能,首先我们要调用FreqDist功能。 阅读全文
posted @ 2018-04-04 22:52 red_leaf_412 阅读(1283) 评论(0) 推荐(0) 编辑
摘要:在models.py中添加image模型: class Image(models.Model): user=models.ForeignKey(settings.AUTH_USER_MODEL,related_name='image_created') title=models.CharField( 阅读全文
posted @ 2018-04-01 22:18 red_leaf_412 阅读(289) 评论(0) 推荐(0) 编辑
摘要:在前面我们通过from nltk.book import *的方式获取了一些预定义的文本。本章将讨论各种文本语料库 1 古腾堡语料库 古腾堡是一个大型的电子图书在线网站,网址是http://www.gutenberg.org/。上面有超过36000本免费的电子图书,因此也是一个大型的预料库。NLTK 阅读全文
posted @ 2018-04-01 15:15 red_leaf_412 阅读(1170) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示