2018 年 4月随笔档案 - red_leaf_412

linux c编程：进程环境

摘要：一进程终止：⼀个进程可以登记若⼲个（具体⾃⼰验证⼀下）个函数，这些函数由exit⾃动调⽤，这些函数被称为终⽌处理函数， atexit函数可以登记这些函数。 exit调⽤终⽌处理函数的顺序和atexit登记的顺序相反，如果⼀个函数被多次登记，也会被多次调⽤。以下函数的调用时程序异常或者正常终止：阅读全文

posted @ 2018-04-30 21:17 red_leaf_412 阅读(182) 评论(0) 推荐(0) 编辑

linux c编程：系统数据文件和信息

摘要：linux系统相关的文件信息包含在/etc/passwd文件和/etc/group中。每次登录linux系统以及每次执行ls -l命令时都要使用口令文件。这些字段都包含在<pwd.h>中定义的passwd结构中。 struct passwd { char * pw_name; /* Username 阅读全文

posted @ 2018-04-28 21:18 red_leaf_412 阅读(689) 评论(0) 推荐(0) 编辑

linux c编程：标准IO库

摘要：前面介绍对文件进行操作的时候，使用的是open,read,write函数。这一章将要介绍基于流的文件操作方法：fopen,fread,fwrite。这两种方式的区别是什么呢。1种是缓冲文件系统，一种是非缓冲文件系统缓冲文件系统就是采用fopen,fread,fwrite,fgetc,fputc,f 阅读全文

posted @ 2018-04-23 22:01 red_leaf_412 阅读(352) 评论(0) 推荐(0) 编辑

linux c编程：文件夹操作

摘要：创建目录：用mkdir函数创建目录： mkdir(const char *pathname, mode_t mode) 参数mode有下列的组合： S_ISUID 04000 文件的执行时设置用户ID（set user-id on execution）位 S_ISGID 02000 文件的执行时设阅读全文

posted @ 2018-04-21 17:03 red_leaf_412 阅读(515) 评论(0) 推荐(0) 编辑

python+NLTK 自然语言学习处理八：分类文本一

摘要：从这一章开始将进入到关键部分：模式识别。这一章主要解决下面几个问题 1 怎样才能识别出语言数据中明显用于分类的特性 2 怎样才能构建用于自动执行语言处理任务的语言模型 3 从这些模型中我们可以学到那些关于语言的知识。监督式分类：分类是为给定的输入选择正确的类标签。就好比身份证上的身份证号。每个身阅读全文

posted @ 2018-04-18 15:56 red_leaf_412 阅读(1914) 评论(0) 推荐(0) 编辑

python数据分析之：时间序列二

摘要：将Timestamp转换为Period 通过使用to_period方法，可以将由时间戳索引的Series和DataFrame对象转换为以时期索引 rng=pd.date_range('1/1/2000',periods=3,freq='M') ts=Series(randn(3),index=rng 阅读全文

posted @ 2018-04-16 22:45 red_leaf_412 阅读(306) 评论(0) 推荐(0) 编辑

python+NLTK 自然语言学习处理七：N-gram标注

摘要：在上一章中介绍了用pos_tag进行词性标注。这一章将要介绍专门的标注器。首先来看一元标注器，一元标注器利用一种简单的统计算法，对每个标识符分配最有可能的标记，建立一元标注器的技术称为训练。 from nltk.corpus import brown brown_tagged_sents=brow 阅读全文

posted @ 2018-04-15 22:46 red_leaf_412 阅读(1226) 评论(0) 推荐(0) 编辑

python数据分析之：时间序列一

摘要：在处理很多数据的时候，我们都要用到时间的概念。比如时间戳，固定时期或者时间间隔。pandas提供了一组标准的时间序列处理工具和数据算法。在python中datetime.datetime模块是用的最多的模块。比如使用datetime.datetime.now()就得到了当前的时间2018-04-1 阅读全文

posted @ 2018-04-14 15:26 red_leaf_412 阅读(1456) 评论(1) 推荐(0) 编辑

python+NLTK 自然语言学习处理六：分类和标注词汇一

摘要：在一段句子中是由各种词汇组成的。有名词，动词，形容词和副词。要理解这些句子，首先就需要将这些词类识别出来。将词汇按它们的词性(parts-of-speech,POS)分类并相应地对它们进行标注。这个过程叫做词性标注。要进行词性标注，就需要用到词性标注器(part-of-speech tagger) 阅读全文

posted @ 2018-04-09 22:07 red_leaf_412 阅读(4843) 评论(0) 推荐(0) 编辑

python数据分析之：数据聚合与分组运算

摘要：在数据库中，我们可以对数据进行分类，聚合运算。例如groupby操作。在pandas中同样也有类似的功能。通过这些聚合，分组操作，我们可以很容易的对数据进行转换，清洗，运算。比如如下图，首先通过不同的键值进行分类，然后对各个分类进行求和运算。我们来看实际的例子，首先生成一组数据如下 df=Data 阅读全文

posted @ 2018-04-08 15:51 red_leaf_412 阅读(894) 评论(1) 推荐(0) 编辑

500 Lines or Less: A Template Engine(模板引擎)

摘要：介绍：多数项目都是包含很多的逻辑处理，只有少部分的文字文本处理。编程语言非常擅长这类项目。但是有一些项目只包含了少量的逻辑处理，大量的文本数据处理。对于这些任务，我们期望有一个工具能够很好的处理这些文本问题。模板引擎就是这样的一个工具。在这个章节中，我们会建立一个模板引擎。对于富文本来说，多数的阅读全文

posted @ 2018-04-07 12:46 red_leaf_412 阅读(427) 评论(0) 推荐(0) 编辑

python+NLTK 自然语言学习处理五：词典资源

摘要：前面介绍了很多NLTK中携带的词典资源，这些词典资源对于我们处理文本是有大的作用的，比如实现这样一个功能，寻找由egivronl几个字母组成的单词。且组成的单词每个字母的次数不得超过egivronl中字母出现的次数，每个单词的长度要大于6. 要实现这样的一个功能，首先我们要调用FreqDist功能。阅读全文

posted @ 2018-04-04 22:52 red_leaf_412 阅读(1283) 评论(0) 推荐(0) 编辑

Django之博客系统：在网站中分享内容(一)

摘要：在models.py中添加image模型： class Image(models.Model): user=models.ForeignKey(settings.AUTH_USER_MODEL,related_name='image_created') title=models.CharField( 阅读全文

posted @ 2018-04-01 22:18 red_leaf_412 阅读(289) 评论(0) 推荐(0) 编辑

python+NLTK 自然语言学习处理四：获取文本语料和词汇资源

摘要：在前面我们通过from nltk.book import *的方式获取了一些预定义的文本。本章将讨论各种文本语料库 1 古腾堡语料库古腾堡是一个大型的电子图书在线网站，网址是http://www.gutenberg.org/。上面有超过36000本免费的电子图书，因此也是一个大型的预料库。NLTK 阅读全文

posted @ 2018-04-01 15:15 red_leaf_412 阅读(1170) 评论(0) 推荐(0) 编辑

red_leaf_412

04 2018 档案

公告

搜索

常用链接

随笔分类

随笔档案

文章分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论