摘要:
1.目标采集地址: http://183.129.219.195:8081/bs/hzzjb/web/list2.这里的翻页还是较为简单的,只要模拟post请求发送data包含关键参数就能获取下一页页面信息。获取页面标签信息的方法不合适,是之前写的,应该用xpath匹配整个table数据获取父类选择器再去二次匹配子类标签数据。3.采集结果如下: #hzzjb.py # -*- coding... 阅读全文
摘要:
1.目标采集地址: http://183.129.219.195:8081/bs/hzzjb/web/list2.这里的翻页还是较为简单的,只要模拟post请求发送data包含关键参数就能获取下一页页面信息。获取页面标签信息的方法不合适,是之前写的,应该用xpath匹配整个table数据获取父类选择器再去二次匹配子类标签数据。3.采集结果如下: #hzzjb.py # -*- coding... 阅读全文
|