方木Fengl - 博客园

python爬虫（二十） select方法

摘要：有时候需要css选择器 1、通过标签名查找： <style type="text/css"> p{ background-color:pink; } </style> <body> <div class="box"> <p>123</p> <p>456</p> </body> print(soup. 阅读全文

posted @ 2020-03-11 20:15 方木Fengl 阅读(1720) 评论(0) 推荐(0) 编辑

python爬虫（二十一）中国天气网最低气温爬虫及可视化

摘要：网页如图所示 1、页面分析首先爬取华北地区华北得url:http://www.weather.com.cn/textFC/hb.shtml 东北得url:http://www.weather.com.cn/textFC/db.shtml 依次很容易得到各个地区得url 一个城市得情况在一个tab 阅读全文

posted @ 2020-03-10 21:50 方木Fengl 阅读(1494) 评论(0) 推荐(0) 编辑

学习进度-1

摘要：第三周所花时间（包括上课） 20小时（上课7小时）代码量（行） 2000 博客量（篇） 3 了解到的知识点 datax将csv导入数据库，kettle对数据进行清洗；python爬虫阅读全文

posted @ 2020-03-07 08:40 方木Fengl 阅读(116) 评论(0) 推荐(0) 编辑

python爬虫（十九）BeautifulSoup4库

摘要： 1、BeautifulSoup4库也是一个HTML/XML解析器，主要也是提取数据。lxml只会局部遍历，BeautifulSoup是基于HTML DOM的，会载入整个文档，建立一个树状结构，在解析HTML时比较简单。 from bs4 import BeautifulSoup html=" 一段代阅读全文

posted @ 2020-03-04 21:50 方木Fengl 阅读(242) 评论(0) 推荐(0) 编辑

datax 将csv数据导入mysql

摘要：这个过程需要用到python2.X ，因为之前已经下载了python3.6 ，所以需要在电脑上安装两个python版本配置过程都一样下载datax 在cmd中输入：python2 datax. py -r streamreader -w streamwriter 可以查看json得模板在job 阅读全文

posted @ 2020-03-03 11:26 方木Fengl 阅读(3281) 评论(0) 推荐(0) 编辑

python爬虫（十八）电影天堂爬虫2

摘要：现在要爬取前七页的url 第一页：第二页：可以找到页码的一定规律所以代码可以为： def spider(): base_url="https://www.dytt8.net/html/gndy/dyzz/list_23_{}.html" for x in range(1,8): url=bas 阅读全文

posted @ 2020-03-02 22:52 方木Fengl 阅读(742) 评论(0) 推荐(0) 编辑

python爬虫（十七）电影天堂爬虫1

摘要：电影天堂里面的要爬取这个页面里所有的电影信息，每个电影信息都在另一个html里，先在这里页面里把这些电影的url爬取出来 # 电影天堂爬虫 from lxml import etree import requests # 一个网址头 BASE_DOMAIN="https://www.dytt8.n 阅读全文

posted @ 2020-03-01 23:14 方木Fengl 阅读(618) 评论(0) 推荐(0) 编辑

python爬虫（十六） -IndexError: list index out of range

摘要：在用lxml和xpath对一个网站进行解析，在解析的时候出现错误-IndexError: list index out of range 原因是在中这个网站的html代码中有的标识为空，只要加上try.....except 错误机制跳过空值就行了例如： html=etree.HTML(text) 阅读全文

posted @ 2020-03-01 22:00 方木Fengl 阅读(14894) 评论(0) 推荐(0) 编辑

python爬虫（十五）豆瓣电影爬虫

摘要： from lxml import etree import requests # 1、将目标网站上的页面抓取下来 headers={ 'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like 阅读全文

posted @ 2020-03-01 21:55 方木Fengl 阅读(538) 评论(0) 推荐(0) 编辑

python爬虫（十四）

摘要： 1、获取所有的span标签 from lxml import etree parser=etree.HTMLParser(encoding='utf-8') html=etree.parse("tencent.html",parser=parser) # 1、获取所有的span标签 # //span 阅读全文

posted @ 2020-02-29 22:37 方木Fengl 阅读(336) 评论(0) 推荐(0) 编辑

zhaoxinhui

导航

公告