05 2021 档案
摘要:Python爬虫、数据分析、网站开发等案例教程视频免费在线观看 https://space.bilibili.com/523606542 Python学习交流群:1039649593 什么是多任务? 什么叫"多任务"呢?简单地说,就是操作系统可以同时运行多个任务。打个比方,你一边在用浏览器上网,一边
阅读全文
摘要:Python爬虫、数据分析、网站开发等案例教程视频免费在线观看 https://space.bilibili.com/523606542 Python学习交流群:1039649593 浏览器对象的常用方法 当我们通过selenium实例化一个浏览器对象时,可以针对此对象进行操作,常见的操作如下所示:
阅读全文
摘要:Python爬虫、数据分析、网站开发等案例教程视频免费在线观看 https://space.bilibili.com/523606542 Python学习交流群:1039649593 元素提取 通过selenium的基本使用可以简单定位元素和获取对应的数据,接下来我们再来学习下定位元素的方法 fin
阅读全文
摘要:Python爬虫、数据分析、网站开发等案例教程视频免费在线观看 https://space.bilibili.com/523606542 Python学习交流群:1039649593 Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,就像玩游戏用的按键精
阅读全文
摘要:Selenium采集数据 Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7,8,9,10,11),Mozilla Chrome,Safari,GoogleChrome,Opera等。 Python爬虫、数据
阅读全文
摘要:csv文件格式是一种通用的电子表格和数据库导入导出格式。最近我调用RPC处理服务器数据时,经常需要将数据做个存档便使用了这一方便的格式。 python中有一个读写csv文件的包,直接import csv即可。利用这个python包可以很方便对csv文件进行操作,一些简单的用法如下。 关注微信公众号,
阅读全文
摘要:目的:将Python对象编码为JSON字符串,并将JSON字符串解码为Python对象。 json模块提供了API,将内存中的Python对象转换为」JSON序列。JSON具有以多种语言(尤其是JavaScript)实现的优点。它在RESTAPI中 Web服务端和客户端之间的通信被广泛应用,同时对于
阅读全文
摘要:openpyxl是一个Python库,用于读取/写入Excel 2010 xlsx / xlsm / xltx / xltm文件。它的诞生是因为缺少可从Python本地读取/写入Office Open XML格式的库。官方文档:https://openpyxl.readthedocs.io/en/s
阅读全文
摘要:计算机的文件,就是存储在某种长期储存设备上的一段数据长期存储设备包括:硬盘、U盘、移动硬盘、光盘... 文本文件和二进制文件 文本文件: 可以使用文本编辑软件查看o本质上还是二进制文件 例如: python的源程序 二进制文件: 保存的内容不是给人直接阅读的,而是提供给其他软件使用的。 例如:图片文
阅读全文
摘要:xpath语法 XPath使用路径表达式来选取XML文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。 下面列出了最有用的表达式: 在下面的表格中,我们已列出了一些路径表达式以及表达式的结果: 选取未知节点 在下面的表格中,我们列出了一些路径表达式,以及这些表达
阅读全文
摘要:Python爬虫、数据分析、网站开发等案例教程视频免费在线观看 https://space.bilibili.com/523606542 Python学习交流群:1039649593 XPath (XML Path Language)是一门在 HTML\XML文档中查找信息的语言,可用来在HTML\
阅读全文
摘要:1. HTTP响应报文 HTTP响应报文也由三部分组成:响应行、响应头、响应体 响应行 响应行一般由协议版本、状态码及其描述组成比如HTTP/1.1 200 OK 其中协议版本HTTP/1.1或者HTTP/1.0,200就是它的状态码,OK则为它的描述。 响应头 响应头用于描述服务器的基本信息,以及
阅读全文
摘要:1. 请求目标(URL) URL又叫作统一资源定位符,是用于完整地描述Internet上网页和其他资源的地址的一种方法。类似于windows的文件路径。 个网址的组成: http://:这个是协议,也就是HTTP超文本传输协议,也就是网页在网上传输的协议。 mail:这个是服务器名,代表着是一个邮箱
阅读全文
摘要:网络(Network)面板记录页面上每个网络操作的相关信息,包括详细的耗时数据、HTTP请求与响应标头和Cookie,等等。这就是我们通常说的抓包。 工具箱 Stop recording network log 默认情况下,只要开发者工具在开启状态,会记录所有的网络请求,当然,记录都是在Networ
阅读全文
摘要:当我们爬取不同的网站是,每个网站页面的实现方式各不相同,我们需要对每个网站都进行分析。那是否有一些通用的分析方法?我分享下自己爬取分析的“套路”。在某个网站上,分析页面以及抓取数据,我用得最多的工具是Chrome开发者工具。 Chrome开发者工具是一套内置于Google Chrome 中的 Web
阅读全文
摘要:通用爬虫 通用网络爬虫是搜索引擎抓取系统(Baidu、Google、Sogou等)的一个重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。为搜索引擎提供搜索支持。 第一步 搜索引擎去成千上万个网站抓取数据。 第二步 搜索引擎通过爬虫爬取到的网页,将数据存入原始页面数据
阅读全文