摘要:
有时候需要css选择器 1、通过标签名查找: <style type="text/css"> p{ background-color:pink; } </style> <body> <div class="box"> <p>123</p> <p>456</p> </body> print(soup. 阅读全文
摘要:
网页如图所示 1、页面分析 首先爬取华北地区 华北得url:http://www.weather.com.cn/textFC/hb.shtml 东北得url:http://www.weather.com.cn/textFC/db.shtml 依次很容易得到各个地区得url 一个城市得情况在一个tab 阅读全文
摘要:
第三周 所花时间(包括上课) 20小时(上课7小时) 代码量(行) 2000 博客量(篇) 3 了解到的知识点 datax将csv导入数据库,kettle对数据进行清洗;python爬虫 阅读全文
摘要:
1、BeautifulSoup4库也是一个HTML/XML解析器,主要也是提取数据。lxml只会局部遍历,BeautifulSoup是基于HTML DOM的,会载入整个文档,建立一个树状结构,在解析HTML时比较简单。 from bs4 import BeautifulSoup html=" 一段代 阅读全文
摘要:
这个过程需要用到python2.X ,因为之前已经下载了python3.6 ,所以需要在电脑上安装两个python版本 配置过程都一样 下载datax 在cmd中输入:python2 datax. py -r streamreader -w streamwriter 可以查看json得模板 在job 阅读全文
摘要:
现在要爬取前七页的url 第一页: 第二页: 可以找到页码的一定规律 所以代码可以为: def spider(): base_url="https://www.dytt8.net/html/gndy/dyzz/list_23_{}.html" for x in range(1,8): url=bas 阅读全文
摘要:
电影天堂里面的 要爬取这个页面里所有的电影信息,每个电影信息都在另一个html里,先在这里页面里把这些电影的url爬取出来 # 电影天堂爬虫 from lxml import etree import requests # 一个网址头 BASE_DOMAIN="https://www.dytt8.n 阅读全文
摘要:
在用lxml和xpath对一个网站进行解析,在解析的时候出现错误-IndexError: list index out of range 原因是在中这个网站的html代码中有的标识为空,只要加上try.....except 错误机制跳过空值就行了 例如: html=etree.HTML(text) 阅读全文
摘要:
from lxml import etree import requests # 1、将目标网站上的页面抓取下来 headers={ 'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like 阅读全文
摘要:
1、获取所有的span标签 from lxml import etree parser=etree.HTMLParser(encoding='utf-8') html=etree.parse("tencent.html",parser=parser) # 1、获取所有的span标签 # //span 阅读全文