随笔分类 -  Search Engine

基于朴素贝叶斯分类器的文本分类算法(下)
摘要:在本文的上半部分《基于朴素贝叶斯分类器的文本分类算法(上)》一文中简单介绍了贝叶斯学习的基本理论,这一篇将展示如何将该理论运用到中文文本分类中来,具体的文本分类原理就不再介绍了,在上半部分有,也可以参见代码的注释。 阅读全文

posted @ 2008-10-21 16:31 Phinecos(洞庭散人) 阅读(43918) 评论(138) 推荐(16) 编辑

基于朴素贝叶斯分类器的文本分类算法(上)
摘要:本文缘起于最近在读的一本书-- Tom M.Mitchell的《机器学习》,书中第6章详细讲解了贝叶斯学习的理论知识,为了将其应用到实际中来,参考了网上许多资料,从而得此文。文章将分为上下两个部分,第一部分将介绍贝叶斯学习的相关理论(如果你对理论不感兴趣,请直接跳至第二部分)。第二部分讲如何将贝叶斯分类器应用到中文文本分类,随文附上示例代码。 阅读全文

posted @ 2008-10-21 14:49 Phinecos(洞庭散人) 阅读(56266) 评论(35) 推荐(9) 编辑

基于K-Means的文本聚类算法
摘要:昨天有幸拜读了蛙蛙池塘的《蛙蛙推荐:蛙蛙教你文本聚类》这篇文章,受益匪浅,于是今天就动手尝试照着他的C#代码,用C++和STL标准库重新实现一遍,因此就有了这篇文章。本文将重新温习蛙蛙池塘那篇文章,并且加入我个人在用C++重写这份代码过程中的一些心得体会。 阅读全文

posted @ 2008-09-06 15:33 Phinecos(洞庭散人) 阅读(27591) 评论(23) 推荐(3) 编辑

nutch 0.9在Windows下的安装
摘要:Nutch 是一个基于Lucene,用Java 实现的开源搜索引擎,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。 阅读全文

posted @ 2007-11-20 16:12 Phinecos(洞庭散人) 阅读(5104) 评论(0) 推荐(0) 编辑

Heritrix研究笔记(一)
摘要:这个开源的Web爬虫,Internet Archive在它的官方文档中说只维护在linux下,我不想用那么麻烦的bash shell去设置那些环境变量什么的,所以还是偷点懒,自己写个windows命令脚本来让这个爬虫在windows下面跑起来吧,现在就跟我来吧,呵呵。 阅读全文

posted @ 2007-10-18 20:20 Phinecos(洞庭散人) 阅读(4513) 评论(4) 推荐(0) 编辑

《Modern Information Retrieval》笔记(二)
摘要:Information Retrieval这个术语产生于Calvin Mooers1948年在MIT的硕士论文。 Information Retrieval(IR):从文档集合中返回满足用户需求的相关信息的过程。作为一门学科,是研究信息的获取(acquisition)、表示(representation)、存储(storage)、组织(organization)和访问(access)... 阅读全文

posted @ 2007-10-14 16:52 Phinecos(洞庭散人) 阅读(1269) 评论(1) 推荐(0) 编辑

《Modern Information Retrieval》笔记(一)
摘要:一,信息检索的基本概念,评价,模型和算法: 1)模型、相关反馈、查询扩展;2)文本处理技术;3)文本分类和聚类技术(倾向性分析);4)信息过滤技术;5)信息组织和索引;6)并行和分布式检索 二,信息检索的应用:1)WEB检索;2)数字图书馆;3)多媒体检索 三,国际著名研究机构和代表人物 1)美国康奈尔大学Salton(1927-1995),现代信息检索的奠基人,SMART... 阅读全文

posted @ 2007-10-14 14:50 Phinecos(洞庭散人) 阅读(2436) 评论(5) 推荐(1) 编辑

Lucene学习笔记(二)
摘要:import java.io.IOException;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.SimpleAnalyzer;import org.apache.lucene.document.Document;import org.apache.lucene.document.Fiel... 阅读全文

posted @ 2007-08-29 15:55 Phinecos(洞庭散人) 阅读(2228) 评论(0) 推荐(0) 编辑

Lucene学习笔记(一)
摘要:建立索引:Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->import java.io.File;import java.io.FileReader;import java.io.IOException;import java.util.Date;im... 阅读全文

posted @ 2007-08-25 20:54 Phinecos(洞庭散人) 阅读(1297) 评论(0) 推荐(0) 编辑

导航