爬虫项目设计文档
一、引言
1.1 目的
描述程序设计。
1.2 总体设计概述
提供网页爬取、内容分类、内容下载、图形分析等设计。
二、整体架构
2.1 应用技术
2.1.1 JAVA多线程
JAVA使用java.lang.Thread类或者java.lang.Runnable接口编写代码来定义、实例化和启动新线程。Java中,每个线程都有一个调用栈,即使不在程序中创建任何新的线程,线程也在后台运行着。一个Java应用总是从main()方法开始运行,mian()方法运行在一个线程内,它被称为主线程。一旦创建一个新的线程,就产生一个新的调用栈。线程的应用大大提高了JAVA程序的效率。
2.1.2 URL去重 -- 基于hash算法的存储
对每一个给定的URL,都是用一个已经建立好的Hash函数,映射到某个物理地址上。当需要进行检测URL是否重复的时候,只需要将这个URL进行Hash映射,如果得到的地址已经存在,说明已经被下载过,放弃下载,否则,将该URL及其Hash地址作为键值对存放到Hash表中。这样,URL去重存储库就是要维护一个Hash表,如果Hash函数设计的不好,在进行映射的时候,发生碰撞的几率很大,则再进行碰撞的处理也非常复杂。而且,这里使用的是URL作为键,URL字符串也占用了很大的存储空间。
2.1.3 爬虫策略 -- 广度优先搜索
广度优先策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用,先用广度优先搜索策略抓取网页,再将其中无关的网页过滤掉。这些方法的缺点在于,随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低。
2.1.4 UI设计 -- Jframe
JFrame是java的GUI程序的基础,它是屏幕上window的对象,能够最大化、最小化、关闭。Swing 的三个基本构造块:标签、按钮和文本字段;但是需要个地方安放它们,并希望用户知道如何处理它们。JFrame 类就是解决这个问题的——它是一个容器,允许程序员把其他组件添加到它里面,把它们组织起来,并把它们呈现给用户。 JFrame 实际上不仅仅让程序员把组件放入其中并呈现给用户。比起它表面上的简单性,它实际上是 Swing 包中最复杂的组件。为了最大程度地简化组件,在独立于操作系统的 Swing 组件与实际运行这些组件的操作系统之间,JFrame 起着桥梁的作用。JFrame 在本机操作系统中是以窗口的形式注册的,这么做之后,就可以得到许多熟悉的操作系统窗口的特性:最小化/最大化、改变大小、移动。
2.2整体框架视图
2.2.1物理设计框架
2.2.2程序设计框架
2.3 工作过程设计
根据我们的两个视图,可以进一步设计出爬虫的如下工作方式:
①将给定的初始URL加入到URL等待队列。
②创建爬虫线程,启动爬虫线程
③每个爬虫线程从URL等待队列中取得任务URL。然后根据URL下载网页,然后解析网页,获取超链接URs。如果获取到的URL为相对地址,需要转换为绝对地址,然后淘汰外URLs,错误URLs或者不能解析的URL地址。再判断这些URL是否已经被下载到,如果没有则加入到URL等待队列。
④继续执行步骤③,直到结束条件停止。
如下是我们的工作流程图:
2.4 代码框架规范
crawler项目整体上分为url操作、服务器连接和数据库操作、内容下载、图形展示、UI设计五个部分。
(1)URL操作
URL存取:
public class LinkQueue:
//已访问的 url 集合
private static Set<RankUrl> visitedUrl = new HashSet<RankUrl>();
//已访问的 url 集合(.html)
private static Set<RankUrl> visitedHUrl = new HashSet<RankUrl>();
//待访问的 url 集合
private static ConcurrentLinkedQueue<RankUrl> unVisitedUrl = new ConcurrentLinkedQueue<RankUrl>();
//seed url集合
private static Queue<RankUrl> seedUrls = new LinkedList<RankUrl>();
//tag 集合
private static Hashtable<String, String> tagtext= new Hashtable<String, String>();
//Url得分表
private static Hashtable<RankUrl, Double> urlsScoreTable = new Hashtable<RankUrl, Double>();
//前十链接
private static ArrayList<String> topUrlsSort = new ArrayList<String>();
//获得tag表
public static Hashtable<String, String> getTagtext();
//添加到访问过的URL队列中
public static void addVisitedUrl(RankUrl url);
//添加种子链接
public static void addSeedUrl(RankUrl url);
//未访问的URL出队列
public static Object unVisitedUrlDeQueue();
//保证每个 url 只被访问一次
public static void addUnvisitedUrl(RankUrl url, RankUrl inUrl);
//获得已经访问的URL数目
public static int getVisitedUrlNum();
//判断未访问的URL队列中是否为空
public static boolean unVisitedUrlsEmpty();
//使用PageRank算法计算Url的重要性排序
public static void getUrlsScores();
//获得排序top10以内的Url和分数
public static Hashtable<String, Double> getTopRankUrls();
URL评分:
public class RankUrl :
//获取网址URL
public String getUrl();
//得到网址排名集合
public Set<RankUrl> getOutUrls();
//添加网址排名
public void addOutUrl(RankUrl url);
//得到网址排名集合的大小
public int getOutUrlsSize();
//返回网址数量
public int getOutUrlsSize();
//输出已访问url
public void print();
子链接操作:
public class HtmlParserTool:
//过滤并获取网站子链接
public static Set<String> extracLinks(String url, LinkFilter filter);
//过滤并获取网站子链接
public static Set<String> extracLinks_gb(String url, LinkFilter filter);
关键词过滤:
public class Keyword:
//根据提供的URL,获取此URL对应网页的纯文本信息
public static String getText(String url);
//给出指定URL是否符合过滤条件
public static boolean accept(String url);
主函数入口:
public class MyCrawler:
//使用种子初始化 URL队列
private void initCrawlerWithSeeds(String[] seeds);
//开始抓取pdf过程
public void pdfCrawling(String[] seeds);
//开始抓取ppt过程
public void pptCrawling(String[] seeds);
//开始抓取doc过程
public void docCrawling(String[] seeds);
//开始抓取stackoverflow页面过程
public void STCrawling(String[] STseeds);
//开始抓取q.cnblogs页面过程
public void CNCrawling(String[] CNseeds);
//开始抓取dwen页面过程
public void DWCrawling(String[] DWseeds);
//开始抓取zhidao.baidu页面过程
public void BZCrawling();
(2)服务器连接和数据库操作
public class ConnectServer:
//初始化数据库连接
public static void dbConn();
//断开数据库连接
public static void dbClose();
//执行sql查询
public static ResultSet dataset(String sql);
//得到全部网页个数
public static String getSum_webpage();
//得到全部问答页个数
public static String getSum_quiz();
//得到全部doc个数
public static String getSum_doc();
//得到全部ppt个数
public static String getSum_ppt();
//得到全部pdf个数
public static String getSum_pdf();
//互斥更新数据库
public static synchronized int update(String sql) throws SQLException;
//获取数据库最大ID号
public static int idNumber();
(3)内容下载
public class DownloadFile:
//构造函数
public DownloadFile(RankUrl url,LinkFilter filter);
//开始下载
public void run();
//通过ID获得文件名
public String getFileNameByID(int _id,String contentType);
//通过网址得到文件名
public String getFileNameByUrl(String url,String contentType)
//更新数据库
public void DataBase(String IntoDataBase,String FilePath) throws SQLException;
//保存网页字节数组到本地
private void saveToLocal(byte[] data, String filePath);
public class DownloadQuiz extends Thread:
//构造函数
public DownloadQuiz (RankUrl url,int kind);
//开始下载问答页
public void run();
//更新数据库
public void DataBase(String IntoDataBase,String FilePath) throws SQLException;
//通过ID获得文件名
public String getFileNameByID(int _id,String contentType);
//通过网址得到文件名
public String getFileNameByUrl(String url,String contentType);
//保存网页字节数组到本地
private void saveToLocal(byte[] data, String filePath);
(4)图形展示
饼状图:
public class Analysis extends JFrame:
//构造函数,设计饼状图
Analysis();
public class PieChart:
//构造函数,设计饼状图
public PieChart();
//得到pdf,quiz,webpage的数据集
private static DefaultPieDataset getDataSet();
//获取饼状图
public ChartPanel getChartPanel();
柱状图:
public class BarChart:
//构造函数,设计柱状图
BarChart();
(5)UI设计
主界面:
public class CraUi extends JFrame implements ActionListener, Runnable, ItemListener:
//构造函数,设计UI布局
public CraUi();
//根据给定的数据创建图表
public JFreeChart createChart(CategoryDataset dataset);
//创建供图表显示的面板
public JPanel createPanel();
//刷新面板
public static void updatePanel(int visited,int succeed,int failed,int passed);
//配置事件监听器动作
public void actionPerformed(ActionEvent e);
//在指定位置插入已访问URL
public void UIinsertURLs(String newURL);
//UI开始运行
public void run();
//配置下拉框状态改变响应触发
public void itemStateChanged(ItemEvent e);
//得到关键字
public String getTxt();
//设置关键字
public void setTxt(String txt);
团队LOGO:
public class Logo extends JWindow implements Runnable:
//构造函数,设置Logo参数
public Logo(String name);
//显示Logo
public void run();
//使Logo消失
public void setNotVisible();
三、软件支持
类型 | 软件 |
服务器 | 由老师提供 |
数据库 | sql server2008 |
开发平台 | Eclipce |
四、其他设计
4.1 异常处理
由于数据的保存涉及到了数据库,所以异常处理主要涉及的是SQLException,在需要操作到数据库的方法里,都抛出了SQLException,捕获然后给相应提示信息。还有其他基本异常处理不一一罗列。
4.2 用户性能设计
通过三个设计提高软件的性能:
(1)hash存储
(2)java多线程
(3)pagerank算法
高效率运行的软件有利于提高用户的体验指数。