你的未来有我导航----教你如何爬取高德地图
简单一文教你如何爬取高德地图
目录
推荐
一、 分析网页结构
二、拿到相关网址
三、代码实现
3.1 查询所有城市名称和编号
3.2 根据编号查询天气
四、完整代码
五、保存结果
一、 分析网页结构
以往几篇都是介绍的传统的静态界面的爬取,这次博主介绍一个爬取动态网页的超简单的一个小demo
。
说到动态网页,你对它了解多少呢?
如果对动态网页不认识的童鞋,博主在此给出链接,可以看百度百科的详细解析动态网页_百度百科以及小马夫的静态页面和动态页面的区别
简单来说,要获取静态网页的网页数据只需要给服务器发送该网页url
地址就行,而动态网页的数据因为是存储在后端的数据库里。所以要获取动态网页的网页数据,我们需要向服务器发送请求文件的url
地址,而不是该网页的url
地址。
????,下面开始进入正题。
本篇博文就以高德地图展开:https://www.amap.com/
在打开后,我们发现有一堆div标签
,但是并没有我们需要的数据,这个时候就可以判定其为动态网页,这个时候,我们就需要找接口
点击网络标签,我们可以看到网页向服务器发送了很多请求,数据很多,找起来太费时间
我们点击XHR
分类,可以减少很多不必要的文件,省下很多时间。
XHR类型即通过XMLHttpRequest方法发送的请求,它可以在后台与服务器交换数据,
这意味着可以在不加载整个网页的情况下,对网页某部分的内容进行更新。
也就是说,向数据库请求然后得到响应的数据是XHR类型的
然后我们就可以在XHR
类型下开始一个个找,找到了如下的数据
通过查看Headers
获得URL
打开之后,我们发现其为近两天的天气情况。
打开后我们可以看到上面的情况,这是个json
格式的文件。然后,它的数据信息是以字典的形式来保存的,而数据是都保存在“data”
这个键值里面。
????,找到了json
数据,我们来对比下看是否是我们找的东西
通过对比,数据正好对应,那就说明咱们已经拿到数据了。
二、拿到相关网址
'''
查询当前地点天气的url:https://www.amap.com/service/cityList?version=2020101417
各城市对应code的url:https://www.amap.com/service/weather?adcode=410700
备注:这两个url可以从Network中查看到
'''
????,相关网址我们已经拿到了,下面就是具体的代码实现了。至于怎么实现,
我们知道json数据可以使用response.json()
转字典,然后操作字典。
三、代码实现
知道了数据的位置后,我们开始来写代码。
3.1 查询所有城市名称和编号
先抓取网页,通过添加headers
来伪装成浏览器来对数据库地址进行访问,防止被识别后拦截。
url_city = "https://www.amap.com/service/cityList?version=202092419"
headers = {
"user-agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",
}
city = []
response = requests.get(url=url_city, headers=headers)
content = response.json()
print(content)
得到我们想要的数据之后,我们通过查找可以发现cityByLetter
里的编号和名称是我们需要的,那么我们就可以盘它了。
if "data" in content:
cityByLetter = content["data"]["cityByLetter"]
for k,v in cityByLetter.items():
city.extend(v)
return city
1
2
3
4
5
3.2 根据编号查询天气
得到了编号和名称,下面肯定就是查询天气呀!
先来看接口
通过上图,可以确定最高温度,最低温度等内容。那么就以此来进行数据爬取。
url_weather = "https://www.amap.com/service/weather?adcode={}"
response = requests.get(url=url_weather.format(adcode), headers=headers)
content = response.json()
item["weather_name"] = content["data"]["data"][0]["forecast_data"][0]["weather_name"]
item["min_temp"] = content["data"]["data"][0]["forecast_data"][0]["min_temp"]
item["max_temp"] = content["data"]["data"][0]["forecast_data"][0]["max_temp"]
print(item)
????,我们的设想已经实现了。
四、完整代码
# encoding: utf-8
'''
@software: Pycharm
@file: 高德地图_每个城市的天气.py
@Version:1.0
'''
import requests
url_city = "https://www.amap.com/service/cityList?version=202092419"
url_weather = "https://www.amap.com/service/weather?adcode={}"
headers = {
"user-agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",
}
def get_city():
"""查询所有城市名称和编号"""
city = []
response = requests.get(url=url_city, headers=headers)
content = response.json()
if "data" in content:
cityByLetter = content["data"]["cityByLetter"]
for k, v in cityByLetter.items():
city.extend(v)
return city
def get_weather(adcode, name):
"""根据编号查询天气"""
item = {}
item["adcode"] = str(adcode)
item["name"] = name
response = requests.get(url=url_weather.format(adcode), headers=headers)
content = response.json()
item["weather_name"] = content["data"]["data"][0]["forecast_data"][0]["weather_name"]
item["min_temp"] = content["data"]["data"][0]["forecast_data"][0]["min_temp"]
item["max_temp"] = content["data"]["data"][0]["forecast_data"][0]["max_temp"]
return item
def save(item):
"""保存"""
print(item)
with open("./weather.txt","a",encoding="utf-8") as file:
file.write(",".join(item.values()))
file.write("\n")
if __name__ == '__main__':
city_list = get_city()
for city in city_list:
item = get_weather(city["adcode"],city["name"])
save(item)
五、保存结果
正文结束!!!
欢迎关注公众号:Python爬虫数据分析挖掘
记录学习python的点点滴滴;
回复【开源源码】免费获取更多开源项目源码;
公众号每日更新python知识和【免费】工具;
本文已同步到【开源中国】、【腾讯云社区】、【CSDN】;
文章源:buwenbuhuo.blog.csdn.net/