javascript之post网站用get方式采集实例
有些网站内容页可能会有post提交表单来请求数据,火车步支持内容页的post,那摩这些有时候也不是不能采集的,也不需要插件,有时把表单的提交换成get提交的方式,也可能请求道数据,下面是一个网站的实例:http://mie168.com/job/2009-12/307837.htm,这个内容页,要点全文按钮才能看到全文,而
有藏在了
- <script language='javascript' src='/Login.js'></script>
,下载这个js,http://mie168.com/Login.js,这是这个js里德源码
- document.writeln(" <table bgcolor=#FEFEEF border=\"0\" bordercolordark=\"#F9C7A2\" cellpadding=\"0\" cellspacing=\"0\" width='640' align='center'> ");
- document.writeln(" <tr><td height=\"40\" ></td></tr> <tr><td height=\"70\" align='center' bgcolor=#e5eefa><form name='frmmie168' method='post' action='/read.aspx'><p></p>");
- document.writeln(" <input type='submit' name='Submit' class='inputDetail' value=' * 点这里阅读全文 ' title='点击这里阅读全文'>");
- document.writeln(" <input type='hidden' name='htmlpath' value='" +strHtmlpath + "'>");
- document.writeln(" </form></td> </tr>");
- document.writeln(" </table>");
输出了一个表单,method='post' 提交方式post,用到的参数有htmlpath,通过
- <input type='hidden' name='htmlpath' value='" +strHtmlpath + "'>,提交的地址是 action='/read.aspx',补全是http://mie168.com/read.aspx
可了解到htmlpath的值=strHtmlpath变量,接下来就是要找到strHtmlpath,在本页源码里有
- <script language='JavaScript'>
- var strHtmlpath="/job/2009-12/307837.htm";
- </script>
;
由于是在内容页,而且又是post提交的,所以看上去确实有些麻烦,但可以把表单的提交方式换成get试试,get提交是把表单的各个参数用&连接后,用?连载提交的地址,所以写成http://mie168.com/read.aspx?htmlpath=/job/2009-12/307837.htm,测试可以成功看到全文
还是要用多页。列表直接自定义出这个地址好像不行
规则 mie168多页.ljob (2.01 KB)
本人博客的文章大部分来自网络转载,因为时间的关系,没有写明转载出处和作者。所以在些郑重的说明:文章只限交流,版权归作者。谢谢