python爬虫之——爬取天气信息

初学爬虫,不足之处请见谅

官网:
在这里插入图片描述
查询源代码
看到想要爬取的信息都在<li>标签下
先爬取<li>标签

正则匹配信息:

<li class="sky skyid lv[1-3]( on)?">(.+?)</li>
get(url).content.decode('utf-8')# 如果没指定会是乱码
#  coding : UTF-8
from requests import *
from re import *
# 导入模块,每次使用模块中的函数,直接使用函数就可以了;注因为已经知道该函数是那个模块中的了。

url = 'http://www.weather.com.cn/weather/101230506.shtml'
r = str(get(url).content.decode('utf-8')).replace('\n', '')
# 正则匹配
reg = compile(r'<li class="sky skyid lv[1-3]( on)?">(.+?)</li>')

for i in findall(reg , r):
    print (i[1])

运行python:
在这里插入图片描述
替换一下得到结果

sublime 中用正则 去除空行、html注释和js注释
在这里插入图片描述

本文作者:mingyepf

本文链接:https://www.cnblogs.com/mypf/p/15960609.html

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   mingyepf  阅读(170)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
💬
评论
📌
收藏
💗
关注
👍
推荐
🚀
回顶
收起
  1. 1 404 not found REOL
404 not found - REOL
00:00 / 00:00
An audio error has occurred.