爬虫3

1、cookie cookie是什么?

http协议,发请求-给响应 发请求-给响应 无状态特性 有问题的。 登录请求-响应 登录后请求-响应 这个问题如何解决? 引入了cookie,会话机制 登录请求-响应 响应的头部会有一些信息发给客户端,缓存起来 登录后请求-响应 请求的时候,将你保存的信息带过来即可 session 信息的保存,cookie保存到客户端,session,信息保存到服务端,sessionid保存到客户端 抛出问题: 一个页码有一个url,登录后的页码(个人资料页)也有一个url 如何通过代码访问登录后的页面(个人资料页) http://www.renren.com/960481378/profile (1)拿到cookie 通过浏览器抓包,抓取访问登陆后页面的cookie,写到代码中即可

(2)模拟登录 先模拟发送post,在发送get 保存和携带cookie的功能,搞cookiejar

2、正则表达式 为什么使用正则表达式?

查找,字符串查找函数(find,rfind,index) 固定的字符串 17701256561 13838384380 15612345678 test@qq.com laladudu@sina.cn 查找匹配一批有相同规则的字符串的时候使用正则 js正则,前端验证 有很多规则,非常灵活,根据特定的需求写的


(1)单字符匹配
\d   0-9 所有的数字字符         [0-9]
\D   除了 \d
\w   数字-字母-下划线 一个中文 [a-zA-Z0-9_]
\W   除了 \w
\s   所有的空白字符 \t 空格
\S   除了 \s
.     除了 \n 以外任意字符
[aeiou] 匹配这里面任意一个
(2)数量修饰
{n}   修饰前面的一个字符出现多少次
{n,m} 至少n次,最多m次   贪婪匹配,能多匹配就多匹配
{n,} 最少n次
{0,} 任意多次   *
{1,} 至少1次   +
{0,1} 可有可无   ?
(3)边界相关
^     以某某开头
$     以某某结尾
(4)贪婪和非贪婪
.*
.*?   取消贪婪
.+
.+?   取消贪婪
import re
compile   生成一个正则对象
search   从任意位置开始匹配,匹配成功立即结束,返回对象
match     从开头开始匹配,匹配成功立即结束,返回对象
ret.group()   ret.span()
findall   匹配所有符合要求的字符串,返回列表,列表里面都是匹配的内容
(5)子模式
在正则里面出现 ()
1、看作一个整体
(ab){3}
2、一个子模式
\1 第一个小括号匹配的内容
\2 第二个小括号匹配的内容
(6)正则替换
sub
(7)修饰符
re.I   忽略大小写
re.S   视为单行模式
re.M   多行匹配

 

posted @ 2018-10-29 18:14  qwehelloworld  阅读(137)  评论(0编辑  收藏  举报