2011 年 12月 9 日随笔档案 - 长颈鹿Giraffe

公告

2011年12月9日

摘要：一、基于二元语法模型分词的思想下面是该程序的主要过程与思路：1、针对语料库进行训练。本程序使用的是北大提供的人民日报1998 年1 月的语料库，包含约110万词。由于采用二元语法模型，所以需要计算语料库中单个词的频率，以及每一个词后面出现另一个词的频率。2、建立二元切分词图。建立一个有向无环图，图中的结点为任意一个可能的候选词语，图中的边代表相邻两个词语的续接关系。二元切分词图的每一条边的权值表示二元词语转移概率P(Wi|Wi-1)。任何一种切分的方式可以表示为二元切分词图上的一条起始结点到结束结点的路径。路径上所有边的概率之积就是该切分结果对应的二元语法模型概率。而我们要做的就是找出一条概阅读全文

posted @ 2011-12-09 15:57 长颈鹿Giraffe 阅读(3009) 评论(2) 推荐(0) 编辑

主题爬虫

摘要：参考了一些论文和网上的资料以及清华大学出版社出版的《自己动手写网络爬虫》这本书中的部分章节，设计了主题爬虫的主要体系结构如下图所示： Heritrix是一个由 java 开发的、开源的网络爬虫，我参考网上的一些文章分析了其部分关键功能的代码，然后借鉴其几个比较好的地方实现了一个通用爬虫的主要功能。下面是我实现的爬虫中几个个人认为比较好的地方。1) 可配置性：通过.properties配置文件可以配置该爬虫所使用的线程数、线程等待时间，连接超时时间，可爬取文件类型和下载目录等。2) 爬虫礼仪：解析站点根目录下的robots.txt文件，遵循爬虫禁止协议、以及避免对服务器资源的过度使用等。3) 爬阅读全文

posted @ 2011-12-09 15:54 长颈鹿Giraffe 阅读(1780) 评论(0) 推荐(0) 编辑