所以燃

2014年1月30日

程序活动记录&程序调试&多线程编程

摘要: 内存空间程序在执行时,传递给CPU的地址是逻辑地址,由段选择符和偏移量组成。逻辑地址必须映射成线性地址,再映射为物理地址才能访问物理内存。a.逻辑地址转化为线性地址:逻辑地址以“段寄存器:偏移地址”形式存在,通过段寄存器里的索引找到段基址,再加上段偏移量,得到线性地址。b.线性地址转化为物理地址:线性地址分为页目录项、页表项和页偏移组成。页目录索引+页目录基址得页表基址,页表基址+页表索引得页基址,页基址+页偏移得物理地址。程序的内存布局为:全局变量区、静态常量数据、代码区、变量、堆、空闲区、栈区。堆:由程序员分配和释放,malloc()/free(),new/delete,内存区域不连续(链 阅读全文

posted @ 2014-01-30 15:35 Jizhiyuan 阅读(251) 评论(0) 推荐(0) 编辑

2014年1月29日

数据结构与算法

摘要: 1.1 算法设计步骤a.输入输出,由此确定算法的参数和返回值。b.使用断言,检查输入参数的合法性,防止非法输入。c.考虑边界,全面考虑可能出现的所有情况。d.出错处理,goto error方式。1.2 字符串 1: char* strstr(char* s1,char* s2){ 2: char *p=s1,*r=s2; 3: while(*p!='\0'){ 4: while(*p++==*r++); 5: if(*r=='\0') 6: return p; 7: else{ 8: r=s... 阅读全文

posted @ 2014-01-29 22:04 Jizhiyuan 阅读(358) 评论(0) 推荐(0) 编辑

2014年1月23日

C/C++

摘要: C篇 1.1 指针 指针是一个占四字节的变量,与其他变量的不同就在于它的值是一个内存地址,指向内存的另一个地方。C语言适合底层开发就在于支持指针,能够直接访问内存地址和操作底层的数据,可以通过指针动态分配和释放内存。 1: typedef struct _node{ 2: int value; 3: struct _node *next; 4: }node; 5: node *pnode=NULL... 阅读全文

posted @ 2014-01-23 12:50 Jizhiyuan 阅读(310) 评论(0) 推荐(0) 编辑

2013年12月17日

Information Retrieval --- Retrieval Comment

摘要: 一、单个查询的评价1.P值P=RT/(RT+RN)2.R值R=RT/(RT+~RT)3.F值:调和平均值F=1/(0.5*(1/P+1/N))4.P@N值:在N处的正确率5.AP平均正确率:对不同召回率点上的正确率进行平均[例]某个查询Q共有6个相关结果,某系统排序返回了5篇相关文档,其位置分别是第1,第2,第5,第10,第20位,则AP=(1/1+2/2+3/5+4/10+5/20+0)/66.NDCG二、多个查询的评价1.宏平均(Macro Average):对每个查询求出某个指标,然后对这些指标进行算术平均*MAP:平均正确率的宏平均,MAP=mean(APi)。 2.微平均(Micro 阅读全文

posted @ 2013-12-17 00:32 Jizhiyuan 阅读(330) 评论(0) 推荐(0) 编辑

2013年12月16日

Information Retrieval --- Clustering

摘要: 一、聚类算法1.扁平聚类(k均值)步骤:a.重分配(reassignment): 将每篇文档分配给离它最近的簇 b.重计算(recomputation): 重新计算每个簇的质心向量2.层次聚类2.1单连接single-link:最大相似度(往往产生长的、凌乱的簇结构)2.2全连接all-link:最小相似度3.质心法: 平均的类间相似度(对离群点非常敏感) 4.组平均Group-average: 平均的类内和类间相似度二、聚类评价1.内部指标:RSS残差平方和(不能评价实际效用)RSS = 所有簇上的文档向量到(最近的)质心向量的距离平方和的总和 2.外部指标2.1纯度2.2兰迪指数 阅读全文

posted @ 2013-12-16 23:49 Jizhiyuan 阅读(302) 评论(0) 推荐(0) 编辑

Information Retrieval --- Classification

摘要: 一、特征选择:类内代表性、类间区别性、特征子集的最优性1.DF频率法:选择高频词项2.互信息MI3.χ2 统计量二、分类算法1.线性方法1.1朴素贝叶斯(假设条件独立)1.2 Rocchio算法:质心法,效果一般不如NBC基本思想:中心向量是所有文档向量的算术平均,将每篇测试文档分到离它最近的那个中心向量。1.3 SVM支撑向量机:软间隔线性分类器2.非线性方法:KNN最近邻三、分类评价1.P值:该类中正确的结果所占该类总结果的比重P=CT/(CT+CN)2.R值:该类中正确的结果占所有类正确结果的比重R=CT(CT+~CT)3.F值:调和平均值F=1/(0.5*(1/P+1/R))4.Acc 阅读全文

posted @ 2013-12-16 22:54 Jizhiyuan 阅读(275) 评论(0) 推荐(0) 编辑

Information Retrieval --- Web Search

摘要: 一、检索应用:采样、查重二、链接分析1.PageRank一个网页的PageRank等于所有的指向它的网页的PageRank的分量之和(c为归一化参数)。一个网页如果它的入链越多,那么它也越重要(PageRank越高);一个网页如果被越重要的网页所指向,那么它也越重要(PageRank越高) 。*随机游走(Random Walk)模型:到达u的概率由两部分组成,一部分是直接随机选中的概率(1-d)或(1-d)/N,另一部分是从指向它的网页顺着链接浏览的概率,则有 2.HITS(Hyperlink-Induced Topic Search)算法一个网页被越重要的导航型网页指向越多,那么它的Auth 阅读全文

posted @ 2013-12-16 22:10 Jizhiyuan 阅读(329) 评论(0) 推荐(0) 编辑

Information Retrieval --- Retrieval Enforce:Relevance Feedback & Query Expansion

摘要: 一、相关反馈:提高召回率Recall(查询car=>car,automobile)a.用户(显式)相关反馈:用户参与交互。b.隐式相关反馈:根据用户历史行为推测返回文档相关性,进行相关反馈。c.伪相关反馈:无用户参与,系统假设返回的前k篇是相关的,进行反馈。*Rocchio算法:质心法最优查询向量:二、查询扩展:提高召回率Recall,主要使用同义词和近义词扩展1.局部方法:Rocchio相关反馈;概率模型中的反馈。2.全局方法:人工词典/知识库、自动构建资源、查询日志。 阅读全文

posted @ 2013-12-16 21:35 Jizhiyuan 阅读(356) 评论(0) 推荐(0) 编辑

Information Retrieval --- Retrieval Model

摘要: 一、布尔模型 AND查询:倒排记录表的合并(求交集) OR查询:倒排记录表的并集 查询优化:按df从小到大处理 二、向量空间模型 2.1 基本tf-idf向量空间模型 a.查询与文档的相关度采用余弦相似度计算: b.tf-idf权重计算(对数词频-逆文档频率): c.文档长度归一化:平衡短文档和长文档,降低短文档的相似度,提高长文档的相似度。 2.2 隐... 阅读全文

posted @ 2013-12-16 20:56 Jizhiyuan 阅读(838) 评论(0) 推荐(0) 编辑

Information Retrieval --- Document Processing

摘要: 一、词条化Tokenizer。中文分词:正(逆)向最大匹配,基于词典的方法。二、大小写归一化三、去停用词:the a and;的 得 地四、词形归并:am are is=>be car cars cars'=>car五、词干还原:automate automatic automation=>automat 阅读全文

posted @ 2013-12-16 17:55 Jizhiyuan 阅读(140) 评论(0) 推荐(0) 编辑

导航