上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 24 下一页

2020年3月11日

摘要: 有时候需要css选择器 1、通过标签名查找: <style type="text/css"> p{ background-color:pink; } </style> <body> <div class="box"> <p>123</p> <p>456</p> </body> print(soup. 阅读全文
posted @ 2020-03-11 20:15 方木Fengl 阅读(1743) 评论(0) 推荐(0) 编辑

2020年3月10日

摘要: 网页如图所示 1、页面分析 首先爬取华北地区 华北得url:http://www.weather.com.cn/textFC/hb.shtml 东北得url:http://www.weather.com.cn/textFC/db.shtml 依次很容易得到各个地区得url 一个城市得情况在一个tab 阅读全文
posted @ 2020-03-10 21:50 方木Fengl 阅读(1527) 评论(0) 推荐(0) 编辑

2020年3月7日

摘要: 第三周 所花时间(包括上课) 20小时(上课7小时) 代码量(行) 2000 博客量(篇) 3 了解到的知识点 datax将csv导入数据库,kettle对数据进行清洗;python爬虫 阅读全文
posted @ 2020-03-07 08:40 方木Fengl 阅读(118) 评论(0) 推荐(0) 编辑

2020年3月4日

摘要: 1、BeautifulSoup4库也是一个HTML/XML解析器,主要也是提取数据。lxml只会局部遍历,BeautifulSoup是基于HTML DOM的,会载入整个文档,建立一个树状结构,在解析HTML时比较简单。 from bs4 import BeautifulSoup html=" 一段代 阅读全文
posted @ 2020-03-04 21:50 方木Fengl 阅读(243) 评论(0) 推荐(0) 编辑

2020年3月3日

摘要: 这个过程需要用到python2.X ,因为之前已经下载了python3.6 ,所以需要在电脑上安装两个python版本 配置过程都一样 下载datax 在cmd中输入:python2 datax. py -r streamreader -w streamwriter 可以查看json得模板 在job 阅读全文
posted @ 2020-03-03 11:26 方木Fengl 阅读(3309) 评论(0) 推荐(0) 编辑

2020年3月2日

摘要: 现在要爬取前七页的url 第一页: 第二页: 可以找到页码的一定规律 所以代码可以为: def spider(): base_url="https://www.dytt8.net/html/gndy/dyzz/list_23_{}.html" for x in range(1,8): url=bas 阅读全文
posted @ 2020-03-02 22:52 方木Fengl 阅读(760) 评论(0) 推荐(0) 编辑

2020年3月1日

摘要: 电影天堂里面的 要爬取这个页面里所有的电影信息,每个电影信息都在另一个html里,先在这里页面里把这些电影的url爬取出来 # 电影天堂爬虫 from lxml import etree import requests # 一个网址头 BASE_DOMAIN="https://www.dytt8.n 阅读全文
posted @ 2020-03-01 23:14 方木Fengl 阅读(635) 评论(0) 推荐(0) 编辑
摘要: 在用lxml和xpath对一个网站进行解析,在解析的时候出现错误-IndexError: list index out of range 原因是在中这个网站的html代码中有的标识为空,只要加上try.....except 错误机制跳过空值就行了 例如: html=etree.HTML(text) 阅读全文
posted @ 2020-03-01 22:00 方木Fengl 阅读(15000) 评论(0) 推荐(0) 编辑
摘要: from lxml import etree import requests # 1、将目标网站上的页面抓取下来 headers={ 'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like 阅读全文
posted @ 2020-03-01 21:55 方木Fengl 阅读(542) 评论(0) 推荐(0) 编辑

2020年2月29日

摘要: 1、获取所有的span标签 from lxml import etree parser=etree.HTMLParser(encoding='utf-8') html=etree.parse("tencent.html",parser=parser) # 1、获取所有的span标签 # //span 阅读全文
posted @ 2020-02-29 22:37 方木Fengl 阅读(337) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 24 下一页

导航