上一页 1 2 3 4 5 6 7 ··· 16 下一页
该文被密码保护。 阅读全文
posted @ 2019-01-31 16:19 zhaijihai 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 安装scrapy Scrapy架构图: Scrapy Engine(引擎):负责Spider, ItemPipeline, Dowmloads, Scheduler 中间件的通讯, 信号,数据的传递等. Scheduler(调度器): 他负责接受引擎发过来的Request请求,并按照一定的方式进行整 阅读全文
posted @ 2019-01-24 16:35 zhaijihai 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 标签参数tag,他可以传一个标签的名称或多个标签名称组成的Python列表做标签参数. 属性参数attributes使用一个Python字典封封装一个标签的若干属性和对应的属性值. 在运行带有class的属性查找是会报错: 不过,可以用Beautiful提供的臃肿的方案:在class后面加一个下划线 阅读全文
posted @ 2019-01-24 11:13 zhaijihai 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 详细使用链接: 点击链接 selenium介绍: selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支 阅读全文
posted @ 2019-01-23 20:56 zhaijihai 阅读(953) 评论(0) 推荐(0) 编辑
摘要: BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后便可以使用他提供的方法进行快速查找指定元素,从而使得在HTML或XML中查找指定元素变得简单。 1. name,标签名称 2. attr,标签属性 3. children,所有子标签 4. des 阅读全文
posted @ 2019-01-23 11:20 zhaijihai 阅读(178) 评论(0) 推荐(0) 编辑
摘要: urlopen方法 User-agent urllib.parse模块 从运行结果来看冒号,斜杆,&,等号,问号等符号全部被编码,%之后实际上是单字节十六进制表示的值. 一般来说url中的地址部分,一般不需要使用中文路径,但是参数部分,不管GET还是POST方法,提交的数据中,可能有斜杠,等号,问号 阅读全文
posted @ 2019-01-22 11:44 zhaijihai 阅读(120) 评论(0) 推荐(0) 编辑
摘要: Robots协议 指定一个robots.txt文件,告诉爬虫引擎怎么爬取 https://www.taobao.com/robots.txt 其他爬虫,不允许爬取 User-Agent: * DisalloW: / 这是一个君子协定,'爬亦有道' 这个协议为了让搜索引擎更有效搜索自己的内容 阅读全文
posted @ 2019-01-21 20:18 zhaijihai 阅读(711) 评论(0) 推荐(0) 编辑
摘要: 一 基本流程: 二 请求与响应 三 Request 四 Response 五 总结及爬取梨视屏网站 阅读全文
posted @ 2019-01-21 19:01 zhaijihai 阅读(5812) 评论(0) 推荐(0) 编辑
摘要: continue 中断此次循环,进行下一次循环 有时候用法与else一样,但推荐用continue break 终止当前循环 数字的函数处理 import math math.floor(2.5) 2 math.ceil(2.5) 3 math.round() 4舍6入5取偶 pow(x,y)等于x 阅读全文
posted @ 2019-01-21 12:25 zhaijihai 阅读(158) 评论(0) 推荐(0) 编辑
摘要: continue 中断此次循环,进行下一次循环 有时候用法与else一样,但推荐用continue break 终止当前循环 数字的函数处理 import math math.floor(2.5) 2 math.ceil(2.5) 3 math.round() 4舍6入5取偶 pow(x,y)等于x 阅读全文
posted @ 2019-01-21 10:04 zhaijihai 阅读(87) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 16 下一页