2019年12月24日

【python爬虫】selenium的三种等待

摘要：一、强制等待第一种也是最简单粗暴的一种办法就是强制等待sleep(xx)，强制让闪电侠等xx时间，不管凹凸曼能不能跟上速度，还是已经提前到了，都必须等xx时间。 1 from selenium import webdriver 2 from time import sleep 3 driver 阅读全文

posted @ 2019-12-24 08:36 可西可彻阅读(823) 评论(0) 推荐(0)

2019年12月22日

【python爬虫】selenium常用方法总结

摘要： 1、获取当前页面的Url 方法：current_url 实例：driver.current_url 2、获取元素坐标方法：location 解释：首先查找到你要获取元素的，然后调用location方法实例：driver.find_element_by_xpath("xpath").locatio 阅读全文

posted @ 2019-12-22 20:40 可西可彻阅读(270) 评论(0) 推荐(1)

【pathon基础】初识python

摘要：一、python的起源作者：Guido van Rossum（龟叔）设计原则：优雅，简单，明确二、解释型语言VS编译型语言 1、解释型语言：C#、python step1：程序员写代码； step2：解释过程：逐行，从上至下的解释,边解释边执行。综上：每次执行,自上而下,边解释边执行。 2、阅读全文

posted @ 2019-12-22 19:13 可西可彻阅读(762) 评论(0) 推荐(1)

【python爬虫】动态html

摘要：一、反爬策略 1、请求头 ——user-agent ——referer ——cookie 2、访问频率限制 ——代理池 ——再用户访问高峰期进行爬取，冲散日志。12-13 7-10 ——设置等待时长。time.sleep(3) 3、ajax异步请求，用接口获取数据 4、能一次性获取的数据，绝不发送第阅读全文

posted @ 2019-12-22 19:04 可西可彻阅读(593) 评论(0) 推荐(1)

2019年12月20日

【python爬虫】Xpath

摘要：一、xml是什么 1、定义：可扩展标记性语言 2、特点：xml的是具有自描述结构的半结构化数据。 3、作用：xml主要设计宗旨是用来传输数据的。他还可以作为配置文件。二、xml和html的区别 1、语法要求不同：xml的语法要求更严格。（1）html不区分大小写的，xml区分。（2）html有阅读全文

posted @ 2019-12-20 20:38 可西可彻阅读(728) 评论(0) 推荐(0)

2019年12月19日

【python爬虫】正则表达式

摘要：一、数据的分类 1、结构化数据特点：数据以行为单位，每一个数据表示一个实体。每一行数据的属性都是一样的。举例：关系型数据库中的表就是结构化数据。处理方法：sql 2、半结构化数据特点：结构化数据的另一种形式。他并不符合关系型数据的特点，不能用关系型模型来描述。但是这种数据包含相关标记，有用阅读全文

posted @ 2019-12-19 22:59 可西可彻阅读(260) 评论(0) 推荐(1)

【python爬虫】cookie & session

摘要：一、什么是cookie？ cookie是指网站为了鉴别用户身份，进行会话跟踪而存储在客户端本地的数据。二、什么是session？本来的含义是指有始有终的一些列动作，而在web中，session对象用来在服务器存储特定用户会话所需要的属性及信息。三、cookie和session产生的原因： co 阅读全文

posted @ 2019-12-19 22:26 可西可彻阅读(601) 评论(0) 推荐(1)

2019年12月18日

【python爬虫】requests模块

摘要：文档：从 pythoneer 到 pythonista 的100个模块链接：http://note.youdao.com/noteshare?id=2b95bb3651c21af80ca1936f8ecb1e0f&sub=635CA99241664308947C4F3BC1B5DDBF 文档：递归阅读全文

posted @ 2019-12-18 21:54 可西可彻阅读(824) 评论(0) 推荐(1)

【python爬虫】初识爬虫

摘要：一、爬虫的定义爬虫定义：程序或者脚本——自动的爬取万维网的数据的程序或者脚本。二、爬虫可以解决的问题 1、解决冷启动问题。 2、搜索引擎的根基——通用爬虫。 3、帮助机器学习建立知识图谱。 4、制作各种比价软件。三、爬虫工程师的进阶之路 1、初级爬虫工程师（1）web 前端的知识： HTML 阅读全文

posted @ 2019-12-18 21:05 可西可彻阅读(363) 评论(0) 推荐(1)

2019年12月24日

2019年12月22日

2019年12月20日

2019年12月19日

2019年12月18日

公告