Jizhiyuan - 博客园

程序活动记录&程序调试&多线程编程

摘要：内存空间程序在执行时，传递给CPU的地址是逻辑地址，由段选择符和偏移量组成。逻辑地址必须映射成线性地址，再映射为物理地址才能访问物理内存。a.逻辑地址转化为线性地址：逻辑地址以“段寄存器:偏移地址”形式存在，通过段寄存器里的索引找到段基址，再加上段偏移量，得到线性地址。b.线性地址转化为物理地址：线性地址分为页目录项、页表项和页偏移组成。页目录索引+页目录基址得页表基址，页表基址+页表索引得页基址，页基址+页偏移得物理地址。程序的内存布局为：全局变量区、静态常量数据、代码区、变量、堆、空闲区、栈区。堆：由程序员分配和释放，malloc()/free()，new/delete，内存区域不连续（链阅读全文

posted @ 2014-01-30 15:35 Jizhiyuan 阅读(251) 评论(0) 推荐(0) 编辑

数据结构与算法

摘要： 1.1 算法设计步骤a.输入输出，由此确定算法的参数和返回值。b.使用断言，检查输入参数的合法性，防止非法输入。c.考虑边界，全面考虑可能出现的所有情况。d.出错处理，goto error方式。1.2 字符串 1: char* strstr(char* s1,char* s2){ 2: char *p=s1,*r=s2; 3: while(*p!='\0'){ 4: while(*p++==*r++); 5: if(*r=='\0') 6: return p; 7: else{ 8: r=s... 阅读全文

posted @ 2014-01-29 22:04 Jizhiyuan 阅读(358) 评论(0) 推荐(0) 编辑

C/C++

摘要： C篇 1.1 指针指针是一个占四字节的变量，与其他变量的不同就在于它的值是一个内存地址，指向内存的另一个地方。C语言适合底层开发就在于支持指针，能够直接访问内存地址和操作底层的数据，可以通过指针动态分配和释放内存。 1: typedef struct _node{ 2: int value; 3: struct _node *next; 4: }node; 5: node *pnode=NULL... 阅读全文

posted @ 2014-01-23 12:50 Jizhiyuan 阅读(310) 评论(0) 推荐(0) 编辑

Information Retrieval --- Retrieval Comment

摘要：一、单个查询的评价1.P值P=RT/(RT+RN)2.R值R=RT/(RT+~RT)3.F值：调和平均值F=1/(0.5*(1/P+1/N))4.P@N值：在N处的正确率5.AP平均正确率：对不同召回率点上的正确率进行平均[例]某个查询Q共有6个相关结果，某系统排序返回了5篇相关文档，其位置分别是第1，第2，第5，第10，第20位，则AP=(1/1+2/2+3/5+4/10+5/20+0)/66.NDCG二、多个查询的评价1.宏平均(Macro Average)：对每个查询求出某个指标，然后对这些指标进行算术平均*MAP：平均正确率的宏平均，MAP=mean(APi)。 2.微平均(Micro 阅读全文

posted @ 2013-12-17 00:32 Jizhiyuan 阅读(330) 评论(0) 推荐(0) 编辑

Information Retrieval --- Clustering

摘要：一、聚类算法1.扁平聚类（k均值）步骤：a.重分配(reassignment): 将每篇文档分配给离它最近的簇 b.重计算(recomputation): 重新计算每个簇的质心向量2.层次聚类2.1单连接single-link：最大相似度（往往产生长的、凌乱的簇结构）2.2全连接all-link：最小相似度3.质心法: 平均的类间相似度（对离群点非常敏感） 4.组平均Group-average: 平均的类内和类间相似度二、聚类评价1.内部指标：RSS残差平方和（不能评价实际效用）RSS = 所有簇上的文档向量到(最近的)质心向量的距离平方和的总和 2.外部指标2.1纯度2.2兰迪指数阅读全文

posted @ 2013-12-16 23:49 Jizhiyuan 阅读(302) 评论(0) 推荐(0) 编辑

Information Retrieval --- Classification

摘要：一、特征选择：类内代表性、类间区别性、特征子集的最优性1.DF频率法：选择高频词项2.互信息MI3.χ2 统计量二、分类算法1.线性方法1.1朴素贝叶斯（假设条件独立）1.2 Rocchio算法：质心法，效果一般不如NBC基本思想：中心向量是所有文档向量的算术平均，将每篇测试文档分到离它最近的那个中心向量。1.3 SVM支撑向量机：软间隔线性分类器2.非线性方法：KNN最近邻三、分类评价1.P值：该类中正确的结果所占该类总结果的比重P=CT/(CT+CN)2.R值：该类中正确的结果占所有类正确结果的比重R=CT(CT+~CT)3.F值：调和平均值F=1/(0.5*(1/P+1/R))4.Acc 阅读全文

posted @ 2013-12-16 22:54 Jizhiyuan 阅读(275) 评论(0) 推荐(0) 编辑

Information Retrieval --- Web Search

摘要：一、检索应用：采样、查重二、链接分析1.PageRank一个网页的PageRank等于所有的指向它的网页的PageRank的分量之和(c为归一化参数)。一个网页如果它的入链越多，那么它也越重要(PageRank越高);一个网页如果被越重要的网页所指向，那么它也越重要(PageRank越高) 。*随机游走(Random Walk)模型：到达u的概率由两部分组成，一部分是直接随机选中的概率(1-d)或(1-d)/N，另一部分是从指向它的网页顺着链接浏览的概率，则有 2.HITS（Hyperlink-Induced Topic Search）算法一个网页被越重要的导航型网页指向越多，那么它的Auth 阅读全文

posted @ 2013-12-16 22:10 Jizhiyuan 阅读(329) 评论(0) 推荐(0) 编辑

所以燃