阳光VIP

少壮不努力,老大徒伤悲。平日弗用功,自到临期悔。
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

网页抓取例子

Posted on 2012-02-13 22:47  阳光VIP  阅读(167)  评论(0编辑  收藏  举报

<%@ page contentType="text/html;charset=gb2312"%>
<% 

String sCurrentLine; 

String sTotalString; 

sCurrentLine=""; 

sTotalString=""; 
String temp="";
java.io.InputStream l_urlStream; 


for(int i=14;i<=22;i++){


java.net.URL l_url = new java.net.URL

("http://www.dltcedu.org/index_5/html/994"+i+".shtml"); 

java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection)

l_url.openConnection(); 

l_connection.connect(); 

l_urlStream = l_connection.getInputStream(); 

java.io.BufferedReader l_reader = new java.io.BufferedReader(new

java.io.InputStreamReader(l_urlStream)); 

int start=-1;
while ((sCurrentLine = l_reader.readLine()) != null) 


if((start=sCurrentLine.indexOf("<div style=\"overflow:hidden"))!=-1){
temp=sCurrentLine.substring(start,sCurrentLine.length());
sTotalString+=temp.replaceAll("/UploadFile","http://www.dltcedu.org/UploadFile");


break;


}
//sTotalString+=sCurrentLine; 


while ((sCurrentLine = l_reader.readLine()) != null) 


if((start=sCurrentLine.indexOf("</P></p></div>"))!=-1){

temp=sCurrentLine.substring(0,(start+14));
sTotalString+=temp.replaceAll("/UploadFile","http://www.dltcedu.org/UploadFile");

break;

}

sTotalString+=sCurrentLine.replaceAll

("/UploadFile","http://www.dltcedu.org/UploadFile");; 


}//for
out.println(sTotalString); 

%>