摘要: Scrapy框架介绍: 写一个爬虫,需要做很多的事情。比如:发送网络请求、数据解析、数据存储、反反爬虫机制(更换ip代理、设置请求头等)、异步请求等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的更加的高效(爬取效率和开发效率) 阅读全文
posted @ 2019-09-11 10:56 JRB 阅读(167) 评论(0) 推荐(0) 编辑
摘要: 什么是正则表达式: 通俗理解:按照一定的规则,从某个字符串中匹配出想要的数据。这个规则就是正则表达式。标准答案:https://baike.baidu.com/item/正则表达式/1700215?fr=aladdin 一个段子: 世界是分为两种人,一种是懂正则表达式的,一种是不懂正则表达式的。 正 阅读全文
posted @ 2019-09-11 10:56 JRB 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 什么是http和https协议: HTTP协议:全称是HyperText Transfer Protocol,中文意思是超文本传输协议,是一种发布和接收HTML页面的方法。服务器端口号是80端口。 HTTPS协议:是HTTP协议的加密版本,在HTTP下加入了SSL层。服务器端口号是443端口。 在浏 阅读全文
posted @ 2019-09-11 10:53 JRB 阅读(398) 评论(0) 推荐(0) 编辑
摘要: requests库 虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests宣传是 “HTTP for Humans”,说明使用更简洁方便。 安装和文档地址: 利用pip可以非常方便的安装: 中文文档:http:/ 阅读全文
posted @ 2019-09-11 10:52 JRB 阅读(186) 评论(0) 推荐(0) 编辑
摘要: BeautifulSoup4库 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM(Document Object Model)的,会 阅读全文
posted @ 2019-09-11 10:50 JRB 阅读(303) 评论(0) 推荐(0) 编辑
摘要: XPath语法和lxml模块 什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 XPath开发工具 XPath语法 选取节点: XPath 使用路径表达式来选取 XML 文档中的节点 阅读全文
posted @ 2019-09-11 10:48 JRB 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 操作文件夹(库) 操作文件(表) 操作文件内容(记录) 主键 primary key 约束:not null unique存储引擎(innodb):对于innodb存储引擎来说,一张表内必须有一个主键 单表查询 select distinct 字段1,字段2,字段3 from 库.表 where 条 阅读全文
posted @ 2019-07-10 21:49 JRB 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 操作模式 1。 r 只读模式 2。 w 创建模式,若文件已存在,则覆盖旧文件 3。 a追加模式,新数据会写到文件末尾 创建文件 只读模式 追加模式 循环文件 其他功能 不占硬盘方式的文件修改代码示例 阅读全文
posted @ 2019-06-16 21:22 JRB 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 创建集合 帮列表去重 增删改查 关系运算 两个集合之间一般有三种关系,相交、包含、不相交。在Python中分别用下面的方法判断: 阅读全文
posted @ 2019-06-16 21:11 JRB 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 特性: 创建操作 增加操作 删除操作 修改操作 查操作 循环 求长度 阅读全文
posted @ 2019-06-16 21:06 JRB 阅读(135) 评论(0) 推荐(0) 编辑