摘要: Linux介绍 Linux是一款操作系统,免费、开源、高效、稳定,处理高并发非常强悍,现在很多的企业级的项目都部署到Linux服务器上 目前Linux主要的发行版:Ubuntu、CentOS Linux学习方向 Linux与Windows的比较 注意:这里需要注意的是,Linux虽然也有图形界面,但 阅读全文
posted @ 2021-03-15 16:50 马铃薯1 阅读(64) 评论(0) 推荐(0) 编辑
摘要: 四种数据存储部分:1.JSON文件格式处理2.CSV文件格式处理3.Excel文件处理4.MySQL数据库处理 Excle处理:在爬虫开发中,我们主要关注Excel文件的读写,不会过多关心Excel中的一些样式。如果想要读写Excel文件,需要借助两个库xlrd 和xlwt,其中xlrd是用于读的, 阅读全文
posted @ 2021-03-09 20:35 马铃薯1 阅读(504) 评论(0) 推荐(0) 编辑
摘要: 四种数据存储部分:1.JSON文件格式处理2.CSV文件格式处理3.Excel文件处理4.MySQL数据库处理 CSV模块: CSV(逗号分隔符)文件是表格与数据库操作之中最常用的输入输出格式。在RFC4180中的文件描述标准对CSV格式进行规范之前,CSV格式文件就已经被应用了很多年了。 Pyth 阅读全文
posted @ 2021-03-09 18:59 马铃薯1 阅读(439) 评论(0) 推荐(0) 编辑
摘要: 四种数据存储部分:1.JSON文件格式处理2.CSV文件格式处理3.Excel文件处理4.MySQL数据库处理 JSON字符串: JSON(JavaScript Object Notation,JS对象标记)是一种轻量级的数据交换格式。它基于ECMAScript(w3c制定的js规范)的一个子集,采 阅读全文
posted @ 2021-03-09 13:31 马铃薯1 阅读(466) 评论(0) 推荐(0) 编辑
摘要: 什么是正则表达式: 通俗理解:按照一定的规则,从某个字符串中匹配出想要的数据。这个规则就是正则表达式 re模块是python自带的标准库,不需要安装,直接导入 import re 1.单字符匹配: 点(.):匹配任意的字符(除了'\n') \d:匹配任意的数字 \D:匹配任意的非数字 \s:匹配的是 阅读全文
posted @ 2021-03-06 12:56 马铃薯1 阅读(263) 评论(0) 推荐(0) 编辑
摘要: BeautifulSoup4库:和lxml一样,Beautiful Soup也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据。lxml只会局部遍历,而Beautiful Soup是基于HTML DOM(Document Object Model)的,会载入整个文档, 阅读全文
posted @ 2021-03-05 12:39 马铃薯1 阅读(500) 评论(0) 推荐(0) 编辑
摘要: 什么是XPth?xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历XPath开发工具:Chrome插件XPath Helper XPath节点在XPath中,有七种类型的节点:元素、属性、文本、命名空间、处 阅读全文
posted @ 2021-03-04 17:33 马铃薯1 阅读(543) 评论(0) 推荐(0) 编辑
摘要: requests库:Requests:让HTTP服务人类虽然python的标准库中urllib模块已经包含了平常我们使用的大多数功能,但是它的API使用起来让人感觉不太好,而Requests宣传是"HTTP for Humans",说明使用起来更简洁方便Requests是用python语言编写,基于 阅读全文
posted @ 2021-03-04 15:00 马铃薯1 阅读(196) 评论(0) 推荐(0) 编辑
摘要: urllib库urllib库是Python中最基本的网络请求库,可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据注意:urllib是python自带的标准库,无需安装,直接可以用 一、基本函数详解 1.urlopen函数详解:创建一个表示远程url的类文件对象,然后像本地 阅读全文
posted @ 2021-03-03 23:02 马铃薯1 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 什么是网络爬虫: 通俗的理解,爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并把数据抓取下来, 然后使用一定的规则提取有价值的数据 为什么要用python写爬虫: 语法优美、代码简洁、开发效率高、支持的模块多。相关的HTTP请求模块和HTML解析模块非常丰富。 还有Scrapy和Scarp 阅读全文
posted @ 2021-03-03 19:55 马铃薯1 阅读(66) 评论(0) 推荐(0) 编辑