GhostAatrox
总有一个理由,让自己开始变强

站点:

  1.             https://www.geyanw.com/html/renshenggeyan/2012/0503/295.html
  2.               http://bbs.tianya.cn/list.jsp?item=free&nextid=1522585426000  #天涯杂谈页面

 

 

 

问题:  

1.在第二个站点的时候,遇到了页面翻页问题 不像常规的构造页面(因为无规律)#尚未解决

目前思路是构造跳转函数循环跳转。

结果:完美解决

处理方法:循环调用函数,因为下一页有固定href的tag所以可以用提取href ==>调用href  ==>提取需要的数据 ==>提取换页href 。以此循环。

进阶:想将前10页以xls形式提取出来,并记录条数。思路:range,i去限制。然后叠加。

 

 

总结:今天尝试了入数据库,还算成功

 

posted on 2018-04-03 15:28  GhostAatrox  阅读(100)  评论(0编辑  收藏  举报