最近在做一个蜘蛛采集的软件,应用到垂直搜索系统中.经过详细分析使用方提出了以下需求:
1.采集指定网站的指定内容.
2.将目标网站的内容分析后转换成客户自己的数据结构.
3.采集完成后自动发布到后台数据库.
4..在发布过程中要做到过虑重复内容
以上四个需求分别对应采集,分析,入库三个部分.针对以上需求我初步做了以下设计: