java搜索---网络爬虫实现
摘要:
搜索方面的东西,需要了解网络爬虫方面的知识首先介绍每个类的功能:DownloadPage.java的功能是下载此超链接的页面源代码.FunctionUtils.java 的功能是提供不同的静态方法,包括:页面链接正则表达式匹配,获取URL链接的元素,判断是否创建文件,获取页面的Url并将其转换为规范的Url,截取网页网页源文件的目标内容。HrefOfPage.java 的功能是获取页面源代码的超链接。UrlDataHanding.java 的功能是整合各个给类,实现url到获取数据到数据处理类。UrlQueue.java 的未访问Url队列。VisitedUrlQueue.java 已访问过的 阅读全文
posted @ 2012-05-16 20:24 java课程设计 阅读(8688) 评论(2) 推荐(4) 编辑