马铃薯1

2021年3月15日

摘要： Linux介绍 Linux是一款操作系统，免费、开源、高效、稳定，处理高并发非常强悍，现在很多的企业级的项目都部署到Linux服务器上目前Linux主要的发行版：Ubuntu、CentOS Linux学习方向 Linux与Windows的比较注意：这里需要注意的是，Linux虽然也有图形界面，但阅读全文

posted @ 2021-03-15 16:50 马铃薯1 阅读(64) 评论(0) 推荐(0) 编辑

2021年3月9日

09-爬虫数据存取-Excel文件处理

摘要：四种数据存储部分:1.JSON文件格式处理2.CSV文件格式处理3.Excel文件处理4.MySQL数据库处理 Excle处理：在爬虫开发中，我们主要关注Excel文件的读写，不会过多关心Excel中的一些样式。如果想要读写Excel文件，需要借助两个库xlrd 和xlwt，其中xlrd是用于读的，阅读全文

posted @ 2021-03-09 20:35 马铃薯1 阅读(504) 评论(0) 推荐(0) 编辑

08-爬虫数据存取-CSV文件格式处理

摘要：四种数据存储部分:1.JSON文件格式处理2.CSV文件格式处理3.Excel文件处理4.MySQL数据库处理 CSV模块： CSV（逗号分隔符）文件是表格与数据库操作之中最常用的输入输出格式。在RFC4180中的文件描述标准对CSV格式进行规范之前，CSV格式文件就已经被应用了很多年了。 Pyth 阅读全文

posted @ 2021-03-09 18:59 马铃薯1 阅读(439) 评论(0) 推荐(0) 编辑

07-爬虫数据存取-JSON文件格式处理

摘要：四种数据存储部分:1.JSON文件格式处理2.CSV文件格式处理3.Excel文件处理4.MySQL数据库处理 JSON字符串： JSON(JavaScript Object Notation,JS对象标记)是一种轻量级的数据交换格式。它基于ECMAScript(w3c制定的js规范)的一个子集，采阅读全文

posted @ 2021-03-09 13:31 马铃薯1 阅读(466) 评论(0) 推荐(0) 编辑

2021年3月6日

06-爬虫数据提取-正则表达式

摘要：什么是正则表达式：通俗理解：按照一定的规则，从某个字符串中匹配出想要的数据。这个规则就是正则表达式 re模块是python自带的标准库，不需要安装，直接导入 import re 1.单字符匹配：点(.):匹配任意的字符（除了'\n'） \d:匹配任意的数字 \D:匹配任意的非数字 \s:匹配的是阅读全文

posted @ 2021-03-06 12:56 马铃薯1 阅读(263) 评论(0) 推荐(0) 编辑

2021年3月5日

05-爬虫数据提取-bs4

摘要： BeautifulSoup4库：和lxml一样，Beautiful Soup也是一个HTML/XML的解析器，主要的功能也是如何解析和提取HTML/XML数据。lxml只会局部遍历，而Beautiful Soup是基于HTML DOM(Document Object Model)的，会载入整个文档，阅读全文

posted @ 2021-03-05 12:39 马铃薯1 阅读(500) 评论(0) 推荐(0) 编辑

2021年3月4日

04-爬虫数据提取-XPath

摘要：什么是XPth?xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历XPath开发工具：Chrome插件XPath Helper XPath节点在XPath中，有七种类型的节点：元素、属性、文本、命名空间、处阅读全文

posted @ 2021-03-04 17:33 马铃薯1 阅读(543) 评论(0) 推荐(0) 编辑

03-爬虫基本库-requests库

摘要： requests库：Requests:让HTTP服务人类虽然python的标准库中urllib模块已经包含了平常我们使用的大多数功能，但是它的API使用起来让人感觉不太好，而Requests宣传是"HTTP for Humans",说明使用起来更简洁方便Requests是用python语言编写，基于阅读全文

posted @ 2021-03-04 15:00 马铃薯1 阅读(196) 评论(0) 推荐(0) 编辑

2021年3月3日

02-爬虫基本库-urllib库

摘要： urllib库urllib库是Python中最基本的网络请求库，可以模拟浏览器的行为，向指定的服务器发送一个请求，并可以保存服务器返回的数据注意:urllib是python自带的标准库，无需安装，直接可以用一、基本函数详解 1.urlopen函数详解：创建一个表示远程url的类文件对象，然后像本地阅读全文

posted @ 2021-03-03 23:02 马铃薯1 阅读(216) 评论(0) 推荐(0) 编辑

01-爬虫基础

摘要：什么是网络爬虫：通俗的理解，爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并把数据抓取下来，然后使用一定的规则提取有价值的数据为什么要用python写爬虫：语法优美、代码简洁、开发效率高、支持的模块多。相关的HTTP请求模块和HTML解析模块非常丰富。还有Scrapy和Scarp 阅读全文

posted @ 2021-03-03 19:55 马铃薯1 阅读(66) 评论(0) 推荐(0) 编辑

公告