详细技术说明
1. 系统架构概述:
系统主要由两个部分组成: 爬虫数据获取系统以及数据处理系统
爬虫数据处理就是一个依据源节点网页开展广义优先搜索,定向的查找关键词并且找到文件然后储存在本地,同时将相关信息存入数据库。
数据处理系统是依靠数据库存储信息对于文件进行关键词提取整理筛选然后存入目标数据库。
2. 细节描述:
2.1. 整体框架:
程序主体服务器由Java实现,Java方面需要实现的内容包含爬虫脚本的控制,各类文件处理模块的组装控制等。
在其下面具体包含Crawler, pdfReader, docReader, htmlReader, bridge等组件(有待后续更新)
2.2. 组件描述
2.2.1 Crawler
输入为源地址,关键词
输出为文件集合,用java实现,主要用来实现初始数据的集合的收集
2.2.2 pdfReader
输入为文件路径
输出为从文件中提取的关键信息:关键字、作者、编写时间等
2.2.3 docReader
输入为文件路径
输出为从文件中提取的关键信息:关键字、作者、编写时间等
2.2.4 htmlReader
输入为网页链接
输出为从网页中提取的关键信息:关键字、时间等
2.2.5 bridge
不需要输入
自动将所有文件处理模块得到的信息存储到最终目标位置,例如solr里面