上后谈爱情

导航

 

2016年9月3日

摘要: 1.在模拟登陆的过程中第一步需要得到登陆前信息,用户名和密码通过js预先加密,所以必须要先将js预先加密的servertime和nonce和pubkey得到,下面json模块和re得到预先加密的信息 1 # coding:utf-8 2 import urllib2 3 import re 4 im 阅读全文
posted @ 2016-09-03 20:04 上后谈爱情 阅读(685) 评论(0) 推荐(1) 编辑
 
摘要: 3.采用beatifulsoup与re正则表达式一起使,提取html中的一些href的链接 http://cuiqingcai.com/1319.html 4.如何利用正则表达式边界匹配 阅读全文
posted @ 2016-09-03 19:50 上后谈爱情 阅读(520) 评论(0) 推荐(0) 编辑
 
摘要: 1.上面显示最简单的网页面的爬虫,在实际的过程中爬取的页面有服务器的登录和cookie等网页的登录: 一般有POSt和GEt数据传送方式:Get向服务器发送索取数据的请求直接暴露动态网页上cookies同时GET传送方式url链接字数限制, POST,直接向服务器提出登录请求: 最重要的区别是GET 阅读全文
posted @ 2016-09-03 19:48 上后谈爱情 阅读(3033) 评论(0) 推荐(0) 编辑
 
摘要: 采用多线程对韩寒的微博进行爬取,这个只是不需要进行模拟登陆的: 阅读全文
posted @ 2016-09-03 19:45 上后谈爱情 阅读(1900) 评论(0) 推荐(0) 编辑