摘要: 总体学习路径: 1、学习 Python 包并实现基本的爬虫过程 2、了解非结构化数据的存储 3、学习scrapy,搭建工程化爬虫 4、学习数据库知识,应对大规模数据存储与提取 5、掌握各种技巧,应对特殊网站的反爬措施 6、分布式爬虫,实现大规模并发采集,提升效率 · 目标驱动 · 在一开始的时候,尽 阅读全文
posted @ 2018-09-28 11:04 eo_will 阅读(1702) 评论(0) 推荐(0) 编辑
摘要: 本节内容为解析库的使用,内容涵盖:XPath、BeautifulSoup和PyQuery基础内容。 本节内容为解析库的使用,内容涵盖:XPath、BeautifulSoup和PyQuery基础内容。 · 正则表达来提取比较繁琐。 · 对于网页的节点来说,它可以定义 id、class 或其他的属性,而 阅读全文
posted @ 2018-09-28 10:57 eo_will 阅读(818) 评论(0) 推荐(0) 编辑
摘要: 5.1 文件存储 先用request把源码获取,再用解析库解析,保存到文本 1- txt 文本打开方式: file = open('explore.txt', 'a', encoding='utf-8') #a代表以追加的方式写入文本 file.write('\n'.join([question, 阅读全文
posted @ 2018-09-28 10:57 eo_will 阅读(1128) 评论(0) 推荐(0) 编辑
摘要: request得到和浏览器数据不同 数据加载是异步加载方式,原始页面不包含数据,加载完后会会再向服务器请求某个接口获取数据,然后数据再被处理才呈现到网页上,这其实就是发送了一个 Ajax 请求。这样Web 开发上可以做到前后端分离,而且降低服务器直接渲染页面带来的压力。 因此遇到这种情况,用requ 阅读全文
posted @ 2018-09-28 10:57 eo_will 阅读(2798) 评论(0) 推荐(0) 编辑
摘要: JavaScript 动态渲染的页面不止 Ajax 这一种 另外有的ajax渲染接口含有很多加密参数,难以直接找出其规律 通过模拟浏览器运行的方式来实现,Selenium、Splash、PyV8、Ghost 等 7.1 Selenium的使用 自动化测试工具,支持多种浏览器。爬虫中主要用来解决js渲 阅读全文
posted @ 2018-09-28 10:57 eo_will 阅读(3101) 评论(0) 推荐(0) 编辑
摘要: 2.1 HTTP原理 1、URI、URL 统一资源标识符,统一资源定位符 协议+路径+资源名称 URL 是 URI 的子集,URI 还包括一个子类叫做 URN,它的全称为 Universal Resource Name,即统一资源名称。 URN 只命名资源而不指定如何定位资源,如 urn:isbn: 阅读全文
posted @ 2018-09-28 10:56 eo_will 阅读(808) 评论(0) 推荐(0) 编辑
摘要: 本节内容为基础库的使用,内容涵盖:Urllib库基本使用,Requests库基本使用以及正则表达式基础。 3.1 Urllib 内置http请求库 request请求模块,error异常处理模块,parse工具模块,robotparser 识别网站robots.txt,识别哪些可以爬 3.1.1 发 阅读全文
posted @ 2018-09-28 10:56 eo_will 阅读(930) 评论(0) 推荐(0) 编辑
摘要: 1.1 简介 · 爬虫是请求网站并提取数据的自动化程序 · 爬虫可以简单分为几步:抓取页面、分析页面、存储数据。 1.2 请求库的安装 · 在第一步抓取页面的过程中,我们就需要模拟浏览器向服务器发出请求,涉及到的第三方库有 Requests、Selenium、Aiotttp 等。 · Seleniu 阅读全文
posted @ 2018-09-28 10:55 eo_will 阅读(1350) 评论(0) 推荐(0) 编辑