摘要: #爬取当当网图书,未使用框架 #main是主函数 #KindLinks.py和 获取数据信息.py 是2个封装的类 #KindLinks只有一个方法,它返回的是 listUrl (name(小分类名称),url(小分类对应的链接)) LB (总的分类) #获取数据信息有2个方法, getpage() 阅读全文
posted @ 2017-04-02 17:10 一光年太远 阅读(4295) 评论(3) 推荐(0) 编辑
摘要: #--coding:utf-8#author:wuhao##这里我演示的就是本人所在学校的教务系统#import urllib.requestimport urllib.parseimport reimport shutilimport http.cookiejarclass LoginJust() 阅读全文
posted @ 2017-04-02 17:03 一光年太远 阅读(8824) 评论(0) 推荐(0) 编辑
摘要: ##author:wuhao##爬取指定页码的图片,如果需要爬取某一类的所有图片,整体框架不变,但需要另作分析#可能写的有点乱,因为这是我py写的第一个爬虫程序思路理一下:适用于所有爬虫,高级点的无非就是在我 以下所说的上面增加了点功能 ,比如代理 、 多线程、 死亡重连 等思路:本质上来讲爬虫就是 获取网页 然后解析网页 获取出自己需要的数据 然后对数据进行保存1.需要解决的就是找到存储 你所需... 阅读全文
posted @ 2017-04-02 16:46 一光年太远 阅读(16767) 评论(0) 推荐(2) 编辑