正则表达式

正则表达式

正则表达式的基础知识

  • 原子

    • 普通字符 “yue”即为三个原子y u e
    • 非打印字符
    • 原子表
      • [xyz]中xyz可以匹配
      • [^xyz]除了xzy都可以匹配
    • 通用字符
      • \w \W \d \D \s \S
  • 元字符

    • 常见的元字符image-20200202223452177
    • 任意匹配元字符
    • 边界限制元字符
    • 限定符
    • 模式选择符
    • 模式单元
  • 模式修正

    • image-20200202224119818
  • 贪婪模式与懒惰模式

正则表达式常见函数

  • re.match()函数
    • 从源字符开头开始检索
  • re.search()
    • 从全文检索
  • 全局匹配函数
    • re.compile()对正则表达式预编译
    • 编译后,使用findall()全部找出
  • re.sub()函数
    • re.sub(pattern,rep,string,max)
    • pattern 正则表达式
    • rep要替换成的字符
    • string 源字符
    • max 代表最多可替换的次数

Cookie

  • Cookie常用于保存会话信息

Cookiejar

Cookiejar是Python3中用于处理Cookie的库。

进行Cookie处理的常用思路:

  1. 导入Cookie处理模块http.cookiejar
  2. 使用http.cookiejar.CookieJar()创建CookieJar对象
  3. 使用HTTPCookieProcessor创建cookie处理器,并以其为参数构建opener对象
  4. 创建全局默认的opener对象

多线程爬虫

Trackback解读

​ Trackback

posted @ 2020-02-04 19:43  吉姆雷诺  阅读(220)  评论(0编辑  收藏  举报