摘要:
本节主要介绍用xpath来描述html的层级关系 主要使用到的知识点如下: 单独的一个点 .,表示当前位置 两个点 ..,表示上一级父标签的位置 单独的一个斜杠 /,表示只检索下面一级 单独的两个斜杠 //,表示检索下面全部位置 下标 [数字]:从1开始,依次计算 准备代码 首先是一个HTML代码块 阅读全文
摘要:
必备知识点 在html中,id是唯一的 在html中,class是可以多处引用的 工具 Python3版本 lxml库【优点是解析快】 HTML代码块【从网络中获取或者自己杜撰一个】 requests【推荐安装,从网页上获取网页代码练手,再好不过了】 Xpath学习 先定义html代码块【这次只从b 阅读全文
摘要:
工具 Python3版本 lxml库【优点是解析快】 HTML代码块【从网络中获取或者自己杜撰一个】 requests【推荐安装,从网页上获取网页代码练手,再好不过了】 讲解 网页代码都是成对的标签,基础结构如下 <!DOCTYPE html> <html lang="en"> <head> <!- 阅读全文
摘要:
html_str = """ 网页名 div-text span-text a-text p-text Heading Another Heading ... 阅读全文
摘要:
某些网站的一些数据是通过js加载的 ,所以爬取下来的数据拿不到, 找到评论的地址 .进行请求获取评论数据 阅读全文
摘要:
爬虫 默认使用requests时,发送给服务器的user-agent 是request ,如果想要伪装为浏览器,打开浏览器的网络,复制UA 阅读全文
摘要:
pygal的简单使用 例子来自此书: 《Python编程从入门到实战》【美】Eric Matthes pygal是一个SVG图表库。SVG是一种矢量图格式。全称Scalable Vector Graphics -- 可缩放矢量图形。 用浏览器打开svg,可以方便的与之交互。 以下代码均在Jupyte 阅读全文
摘要:
Anaconda作为一个工具包集成管理工具,下载python工具包是很方便的,直接敲: 1 但是有时候安装一个工具包(如skimage)的时候,在当前的channels中找不到这个包,会提示: 这个时候,我们可以使用下面的指令来查找我们想要安装的包(以skimage为例) 如上图所示,这里我们找到了 阅读全文