摘要:
1.在模拟登陆的过程中第一步需要得到登陆前信息,用户名和密码通过js预先加密,所以必须要先将js预先加密的servertime和nonce和pubkey得到,下面json模块和re得到预先加密的信息 1 # coding:utf-8 2 import urllib2 3 import re 4 im 阅读全文
摘要:
3.采用beatifulsoup与re正则表达式一起使,提取html中的一些href的链接 http://cuiqingcai.com/1319.html 4.如何利用正则表达式边界匹配 阅读全文
摘要:
1.上面显示最简单的网页面的爬虫,在实际的过程中爬取的页面有服务器的登录和cookie等网页的登录: 一般有POSt和GEt数据传送方式:Get向服务器发送索取数据的请求直接暴露动态网页上cookies同时GET传送方式url链接字数限制, POST,直接向服务器提出登录请求: 最重要的区别是GET 阅读全文
摘要:
采用多线程对韩寒的微博进行爬取,这个只是不需要进行模拟登陆的: 阅读全文