07 2018 档案

摘要:个人笔记,写得乱。。不过自己看得懂就行了—_— 日常工作中能接触到的正则,分为两大派别,其中 Unix Like 系统中常用的正则,属于 POSIX “派”(较弱),而各编程语言标准库中的 Re,基本都是 PCRE “派”。(详见 "正则表达式“派别”简述" ) 可虽然说各编程语言基本都属于 PCR 阅读全文
posted @ 2018-07-14 21:36 於清樂 阅读(986) 评论(0) 推荐(0) 编辑
摘要:模块 爬虫主要包含三个部分:抓取、分析、存储。 抓取 1. requests http 请求库,一般来说抓取部分只需要它。 如果需要模拟登录,应该还会用到 hashlib 标准库(密码只传 hash) 2. tesseract 一个传统的 OCR 文字识别库。如果出现了不能绕过的验证码,可用它做验证 阅读全文
posted @ 2018-07-08 10:08 於清樂 阅读(821) 评论(0) 推荐(0) 编辑
摘要:Scrapy 中常用的数据提取方式有三种:Css 选择器、XPath、正则表达式。 Css 选择器 Web 中的 Css 选择器,本来是用于实现在特定 DOM 元素上应用花括号内的样式这样一个功能的。 在爬虫中,我们可以用它来选择提取出需要的内容。Css 有非常丰富的功能,因为我们只用它提取数据,我 阅读全文
posted @ 2018-07-06 11:29 於清樂 阅读(556) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示