摘要: 日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。 阅读全文
posted @ 2012-08-12 13:46 海角七号的Blog 阅读(399) 评论(1) 推荐(0) 编辑
摘要: 什么是doclist 阅读全文
posted @ 2012-08-12 13:29 海角七号的Blog 阅读(366) 评论(0) 推荐(0) 编辑
摘要: 我们向搜索引擎提交一个查询,搜索引擎会从先到后列出大量的结果,这些结果排序的标准是什么呢?这个看似简单的问题,却是信息检索专家们研究的核心难题之一。 阅读全文
posted @ 2012-08-12 13:26 海角七号的Blog 阅读(269) 评论(0) 推荐(0) 编辑
摘要: GIS算法认为:对于给定的一个category,positive实例中所蕴含的规则(regularity)比negative实例中所蕴含的规则更明显;从一组相似的positive实例中推知的模式或分类信息要更准确,而离这些positive实例比较接近的negative更可能是noise。根据这一思想,GIS算法试图构造出一个基于training集合的泛化实例集合(a set of generalized instances),来代替原始的training集合。 阅读全文
posted @ 2012-08-12 09:22 海角七号的Blog 阅读(916) 评论(2) 推荐(0) 编辑
摘要: DragPushing策略的目标是得到一种既好又快的文本分类算法:精度可以与SVM相当;而运行时间与Centroid保持相当。其基本思想是:对被错误分类的训练样本,拉近与正确类代表之间的距离;推远与错误类代表之间的距离。类代表,可以是中心向量、类中样本及概率中心(即类中属性的概率)。 阅读全文
posted @ 2012-08-10 11:52 海角七号的Blog 阅读(418) 评论(0) 推荐(0) 编辑
摘要: 在使用K近邻算法进行分类时,随着训练集中的样本数的增大,K近邻算法的计算成本将急剧增大。目前有两种减少训练集样本数的方法:剪辑方法和压缩方法。前者通过删除错误分类的样本达到压缩训练集的效果,后者的目的是在不改变分类决策边界的前提下减少每一个类的样本数目。 阅读全文
posted @ 2012-08-09 12:37 海角七号的Blog 阅读(4062) 评论(0) 推荐(0) 编辑
摘要: 中文字符的判别及中文个数的统计 阅读全文
posted @ 2012-08-08 19:26 海角七号的Blog 阅读(489) 评论(0) 推荐(0) 编辑
摘要: Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 阅读全文
posted @ 2012-08-08 15:33 海角七号的Blog 阅读(344) 评论(0) 推荐(0) 编辑
摘要: Hadoop MapReduce 上利用Lucene实现分布式检索 阅读全文
posted @ 2012-08-08 11:53 海角七号的Blog 阅读(1816) 评论(6) 推荐(0) 编辑
摘要: Hadoop MapReduce 上利用Lucene实现分布式索引 阅读全文
posted @ 2012-08-08 11:29 海角七号的Blog 阅读(6124) 评论(9) 推荐(2) 编辑