2012年10月3日

摘要: 场景我们需要构建一个人物信息的数据库,数据来源是wikipedia,人物筛选条件是 1961年出生,我们把这个任务交给一个程序员去做,规定他的输入是URL(http://en.wikipedia.org/wiki/Category:1961_births),输出是最终的人物信息数据库。建模从上图可以看出整个的处理过程可以抽象成数据流在节点之间的流动,数据流到达一个节点之后,处理节点对该数据进行逻辑处理并生成新的数据流节点。抽象就上述数据流处理过程进一步抽象便得到WorkStream的设计思想。数据流处理网络是一张有向无环图(DAG),图中的节点是数据流处理节点,边表示数据流的流动方向,箭尾关联 阅读全文
posted @ 2012-10-03 20:00 Razzit 阅读(1151) 评论(1) 推荐(0) 编辑

2012年9月5日

摘要: 之前在实验室做了很多静态页面数据采集的工作,需求是这样的,一个静态页面,需要将页面中的若干元素采集下来保存成键值对,刚开始是使用HtmlParser做的,后来发现使用HtmlParser编写的采集规则很繁琐,并且一旦有需求变更,很难去维护,于是产生了做一个通过外部XML配置就可以做采集的通用的工具包,下面是我之前写的一些设计思想以及抽取规则XML文件的编写规范,还有些不够完善,以后有时间在改一改,最近有点忙。工具包的SVN:http://web-auto-parser.googlecode.com/svn/trunk/抽取规则XML文件的编写规范一.基础Html文档由一系列的标签节点组成,这些 阅读全文
posted @ 2012-09-05 23:03 Razzit 阅读(1177) 评论(0) 推荐(0) 编辑

2012年9月1日

摘要: a able about above abst accordance according accordingly across act actually added adj adopted affected affecting affects after afterwards a... 阅读全文
posted @ 2012-09-01 19:36 Razzit 阅读(4624) 评论(0) 推荐(0) 编辑

2012年8月29日

摘要: import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import java.util.ArrayList; public class DbDataGenerate { private String driver; private String url; private String username; private String p... 阅读全文
posted @ 2012-08-29 14:18 Razzit 阅读(707) 评论(0) 推荐(0) 编辑

2012年8月27日

摘要: 推荐系统常用的:1)MovieLensMovieLens数据集中,用户对自己看过的电影进行评分,分值为1~5。MovieLens包括两个不同大小的库,适用于不同规模的算法.小规模的库是943个独立用户对1682部电影作的10000次评分的数据;大规模的库是6040个独立用户对3900部电影作的大约100万次评分。2)EachMovieHP/Compaq的DEC研究中心曾经在网上架设EachMovie电影推荐系统对公众开放.之后,这个推荐系统关闭了一段时间,其数据作为研究用途对外公布,MovieLens的部分数据就是来自于这个数据集的.这个数据集有72916个用户对l628部电影进行的28119 阅读全文
posted @ 2012-08-27 10:05 Razzit 阅读(4594) 评论(0) 推荐(0) 编辑

2012年8月19日

摘要: lucene3.0lucene中有如下的类层次:org.apache.lucene.util.AttributeSourceorg.apache.lucene.analysis.TokenStream(implements java.io.Closeable)org.apache.lucene.analysis.NumericTokenStreamorg.apache.lucene.analysis.TeeSinkTokenFilter.SinkTokenStreamorg.apache.lucene.analysis.TokenFilterorg.apache.lucene.analysis 阅读全文
posted @ 2012-08-19 10:28 Razzit 阅读(275) 评论(0) 推荐(0) 编辑

2012年8月16日

摘要: MoreLikeThis可以用于实现相似文章的查询,其实现原理剖析如下:MoreLikeThis位于lucene捐赠模块Queries目录下,在此转一下实现该类的初衷: Lucene does let you access the document frequency of terms, with IndexReader.docFreq(). Term frequencies can be computed by re-tokenizing the text, which, for a single document, is usually fast enough. But looki... 阅读全文
posted @ 2012-08-16 15:23 Razzit 阅读(831) 评论(0) 推荐(0) 编辑

导航