邮箱图标 wotula.com
摘要: 之前看到过网上有一篇有关爬取P2P网站上散标投资数据和借贷人的信息数据的博文,后应他人请求,帮忙实现。发现存在不少问题,先整合前人资料(http://sanwen8.cn/p/156w57U.html),说一下爬取中遇到的问题: (一)首先分析"散标投资"这一个模块,共有51个页面 (页面总共51个 阅读全文
posted @ 2016-09-20 22:51 编程浪子Yiutto 阅读(10205) 评论(4) 推荐(0) 编辑
摘要: 有些网页需要你登录之后才可以访问,你需要提供账户和密码。 只要在发送http请求时,带上含有正常登陆的cookie就可以了。 1.首先我们要先了解cookie的工作原理。 Cookie是由服务器端生成,发送给User-Agent(一般是浏览器),浏览器会将Cookie的key/value保存到某个目录下的文本文件内,下次请求同一网站时就发送该Cookie给服务器(前提是浏览器设置为启用cookie... 阅读全文
posted @ 2016-09-20 16:47 编程浪子Yiutto 阅读(4044) 评论(0) 推荐(0) 编辑
摘要: lz提示一点,python3中urllib包括了py2中的urllib+urllib2。[python2和python3的区别、转换及共存- urllib] 怎样扒网页? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS。 如果把网页比作一个人,那么HTML便是他的骨架,J... 阅读全文
posted @ 2016-09-20 16:44 编程浪子Yiutto 阅读(9091) 评论(0) 推荐(0) 编辑