站点:
- https://www.geyanw.com/html/renshenggeyan/2012/0503/295.html
- http://bbs.tianya.cn/list.jsp?item=free&nextid=1522585426000 #天涯杂谈页面
问题:
1.在第二个站点的时候,遇到了页面翻页问题 不像常规的构造页面(因为无规律)#尚未解决
目前思路是构造跳转函数循环跳转。
结果:完美解决
处理方法:循环调用函数,因为下一页有固定href的tag所以可以用提取href ==>调用href ==>提取需要的数据 ==>提取换页href 。以此循环。
进阶:想将前10页以xls形式提取出来,并记录条数。思路:range,i去限制。然后叠加。
总结:今天尝试了入数据库,还算成功
总有一个理由,会让我们开始变强。