参考地址:http://www.cnblogs.com/yantao7589/archive/2011/08/05/2128118.html
网页抓取可以使用Apache的HttpClient,网页分析可以采用Jsoup