zhaijihai

2019年1月31日

该文被密码保护。阅读全文

posted @ 2019-01-31 16:19 zhaijihai 阅读(4) 评论(0) 推荐(0) 编辑

2019年1月24日

摘要：安装scrapy Scrapy架构图: Scrapy Engine(引擎):负责Spider, ItemPipeline, Dowmloads, Scheduler 中间件的通讯, 信号,数据的传递等. Scheduler(调度器): 他负责接受引擎发过来的Request请求,并按照一定的方式进行整阅读全文

posted @ 2019-01-24 16:35 zhaijihai 阅读(205) 评论(0) 推荐(0) 编辑

BeautifulSoup

摘要：标签参数tag,他可以传一个标签的名称或多个标签名称组成的Python列表做标签参数. 属性参数attributes使用一个Python字典封封装一个标签的若干属性和对应的属性值. 在运行带有class的属性查找是会报错: 不过,可以用Beautiful提供的臃肿的方案:在class后面加一个下划线阅读全文

posted @ 2019-01-24 11:13 zhaijihai 阅读(188) 评论(0) 推荐(0) 编辑

2019年1月23日

爬虫之selenium使用

摘要：详细使用链接: 点击链接 selenium介绍： selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支阅读全文

posted @ 2019-01-23 20:56 zhaijihai 阅读(953) 评论(0) 推荐(0) 编辑

爬虫之BeautifulSoup

摘要： BeautifulSoup是一个模块，该模块用于接收一个HTML或XML字符串，然后将其进行格式化，之后便可以使用他提供的方法进行快速查找指定元素，从而使得在HTML或XML中查找指定元素变得简单。 1. name，标签名称 2. attr，标签属性 3. children,所有子标签 4. des 阅读全文

posted @ 2019-01-23 11:20 zhaijihai 阅读(178) 评论(0) 推荐(0) 编辑

2019年1月22日

urllib模块

摘要： urlopen方法 User-agent urllib.parse模块从运行结果来看冒号,斜杆,&,等号,问号等符号全部被编码,%之后实际上是单字节十六进制表示的值. 一般来说url中的地址部分,一般不需要使用中文路径,但是参数部分,不管GET还是POST方法,提交的数据中,可能有斜杠,等号,问号阅读全文

posted @ 2019-01-22 11:44 zhaijihai 阅读(120) 评论(0) 推荐(0) 编辑

2019年1月21日

爬虫基础 - Robots协议

摘要： Robots协议指定一个robots.txt文件,告诉爬虫引擎怎么爬取 https://www.taobao.com/robots.txt 其他爬虫,不允许爬取 User-Agent: * DisalloW: / 这是一个君子协定,'爬亦有道' 这个协议为了让搜索引擎更有效搜索自己的内容阅读全文

posted @ 2019-01-21 20:18 zhaijihai 阅读(711) 评论(0) 推荐(0) 编辑

爬虫基本流程及简单爬取网页

摘要：一基本流程: 二请求与响应三 Request 四 Response 五总结及爬取梨视屏网站阅读全文

posted @ 2019-01-21 19:01 zhaijihai 阅读(5812) 评论(0) 推荐(0) 编辑

基础知识复习,查漏1

摘要： continue 中断此次循环,进行下一次循环有时候用法与else一样,但推荐用continue break 终止当前循环数字的函数处理 import math math.floor(2.5) 2 math.ceil(2.5) 3 math.round() 4舍6入5取偶 pow(x,y)等于x 阅读全文

posted @ 2019-01-21 12:25 zhaijihai 阅读(158) 评论(0) 推荐(0) 编辑

前面基础复习

摘要： continue 中断此次循环,进行下一次循环有时候用法与else一样,但推荐用continue break 终止当前循环数字的函数处理 import math math.floor(2.5) 2 math.ceil(2.5) 3 math.round() 4舍6入5取偶 pow(x,y)等于x 阅读全文

posted @ 2019-01-21 10:04 zhaijihai 阅读(87) 评论(0) 推荐(0) 编辑

公告