基于 Python 批量实现地理位置和经纬度坐标转换
做地图可视化时需要提供经纬度坐标,但一般来说我们手上拿到的通常只有地理位置,比如说 北京市东大街302号狗不理包子店
,可视化之前需要经纬度坐标转换
需要转换的坐标如果仅有几个还好,可以直接借助谷歌地图自带的经纬度转换,但真实场景下需要转换的数据量可能要上百甚至上千,再手动的话就比较头疼了
如何将地理位置批量转化为经纬度坐标? 本文将针对这个问题,介绍两个用 Python 来实现的方法
1,调用第三方 API
最常见办法就是调用第三方 API,例如百度、高德地图等服务平台,提供了相应的功能接口,它们的这类技术已经非常成熟啦,准确稳定,关键还是免费的 ~,本期教程以百度为例(高德的用方类似),介绍一下其用法
1.1,用百度账号登陆百度地图控制台
1.2,创建一个应用,获取 AK 参数
登录控制台之后,选择左侧 应用管理-> 我的应用 -> 创建应用
创建应用页面中有三项信息需要填写
- 应用名称,无限制随意填写即可;
- 应用类型 ,选择
服务端
; - IP 白名单,只是个人简单测试的话
0.0.0.0/0
即可,如果考虑安全问题, 可以将自己的 IP 填进去, AK 参数泄露的话非本机 IP 无法访问,这样也不用担心额度被其他用户盗用
1.3,地理编码、逆地理编码
经纬度地理位置根据转换方向分为两类,接下来我们分别演示一下其用法:
- 地理编码: 将地理地址转换为坐标点(经纬度);
- 逆地理编码,将经纬度转化为地理地址;
1.3.1 地理编码,
下面就是 Python 测试代码块,将 AK 参数(前面申请到的)和你需要转换的地理位置拼接到 官方提供的 url 中,用 requests 访问即可,
import requests
import json
import re
AK = '你的AK'
address ='北京市海淀区上地十街10号'
url = 'http://api.map.baidu.com/geocoding/v3/?address={}&output=json&ak={}&callback=showLocation'.format(address,AK)
res = requests.get(url)
print(res.text)
results = json.loads(re.findall(r'\((.*?)\)',res.text)[0])
print('\n')
print('location is ',results['result']['location'])
输出结果如下
showLocation&&showLocation({"status":0,"result":{"location":{"lng":116.3084202915042,"lat":40.05703033345938},"precise":1,"confidence":80,"comprehension":100,"level":"门址"}})
location is {'lng': 116.3084202915042, 'lat': 40.05703033345938}
1.3.2 逆地理编码
逆地理编与地理编码用法相似
lat = '40.05703033345938'
lng = '116.3084202915042'
AK = '你的AK'
url = 'http://api.map.baidu.com/reverse_geocoding/v3/?ak={}&output=json&coordtype=wgs84ll&location={},{}'.format(AK,lat,lng)
res = requests.get(url)
print(res.text)
address = json.loads(res.text)['result']['formatted_address']
print('\n')
print('address is ',address)
像我们这类免(bai) 费 piao) 用户,借助百度 API 每天最高可调用 6000 次,这个量级基本上能满足我们日常需要,但如果这个数量满足不了你的话,可以在线购买更高的使用额度
2,Geopy
2.1 Geopy 库介绍
这里介绍一个Python 包 Geopy ,借助它也可以实现经纬度地理位置转换,
这款包之经纬度转换原理其实还是借助了第三方 API 平台,因为市面上提供经纬度转换 第三方平台很多,为了方便, Geopy 把这些接口都分别封装在一个类中,借助 Geopy 模块来调用,支持的第三放平台如下
Geopy作为一个专注于地理处理包之外, 除了能实现上面地理编码、逆地理编码功能之外,还有一个其它令我经验的功能, 提供两个经纬度坐标,计算他们在地球上的最短距离
下面将介绍一下 Geopy 的具体用法,
2. 2 地理编码
使用 地理编码功能时,需要借助 Geopy 的 geocoders 模块,Geopy 把所有第三方API封装到 geocoders 中
这里选用 OpenStreetMap 平台上提供的 Nominatim 地理编码器,因为可以免费供我们使用,不需要申请 API ,但缺点是限流,限额,不能大规模频繁访问,否则会返回 403,429错误代码
from geopy.geocoders import Nominatim
geolocator=Nominatim()
location= geolocator.geocode("北京市海淀区西二旗北路")
print(location.address)
print(location.latitude,location.longitude)
结果如下
西二旗北路, 东北旺村, 海淀区, 北京市, 102208, 中国
40.056793 116.305811
2.3 逆地理编码
from geopy.geocoders import Nominatim
geolocator=Nominatim()
location= geolocator.reverse("40.056793 116.305811")
print(location.address)
结果如下
1#, 西二旗北路, 东北旺村, 海淀区, 北京市, 102208, 中国
结果看起来还不错,简单方便;但提醒一下,因为前面说过 Nominatim 模块是限额度的,不要频繁访问,否则会出现以下错误
2.4 根据经纬度计算距离
Geopy 最让我惊喜的是这个用法,提供两个经纬度坐标计算他们之间的距离,因为地球具体来说是椭圆,所以不能按照常规方法来计算 ,目前现有比较流行的几个模型有以下几个
model major (km) minor (km) flattening
ELLIPSOIDS = {'WGS-84': (6378.137, 6356.7523142, 1 / 298.257223563),
'GRS-80': (6378.137, 6356.7523141, 1 / 298.257222101),
'Airy (1830)': (6377.563396, 6356.256909, 1 / 299.3249646),
'Intl 1924': (6378.388, 6356.911946, 1 / 297.0),
'Clarke (1880)': (6378.249145, 6356.51486955, 1 / 293.465),
'GRS-67': (6378.1600, 6356.774719, 1 / 298.25),
}
根据官方介绍,官网选择的是 WGS-84 模型,根据统计最终计算到的距离误差最高在0.5%左右;使用方法如下
from geopy import distance
newport_ri = (41.49008, -71.312796)
cleveland_oh = (41.499498, -81.695391)
print(distance.distance(newport_ri, cleveland_oh).miles)#最后以英里单位输出
#output
538.39044536
wellington = (-41.32, 174.81)
salamanca = (40.96, -5.50)
print(distance.distance(wellington, salamanca).km)# 以 km 作为单位输出
19959.6792674
3 批量地址坐标转换
上面聊了这么多知识点,下面引入一个案例来简单回顾一下;本案例中借助百度API 来实现地理位置坐标转换,把一个 csv 表格内的所有地址位置数据批量转换为经纬度
3.1 数据读取
import pandas as pd
import string
data_path = 'H:/Data/Latlon/map-location.csv'
df = pd.read_csv(data_path,encoding='GB18030')
df
一共有 98 条数据,每条数据都表示一个地理位置;数据明显有一些扰乱项,例如左端的数字字符
、以及数据中的分隔符\t
;因此转换之前需要对数据进行一次预处理操作
3.2 数据预处理
def process_str(x):
# 数据预处理,去掉前面的数字、及字符串中 \t
x = str(x).replace('\t','')
x = str(x).strip(string.digits)
return x
df['location'] = df['location'].apply(process_str)
df
预处理结果如下
3.3 地理编码(经纬度转换)
import time
start = time.time()
AK = '你的AK'
def get_location(str1):
# 获取经纬度坐标
url = 'http://api.map.baidu.com/geocoding/v3/?address={}&output=json&ak={}&callback=showLocation'.format(str1,AK)
res = requests.get(url)
results = json.loads(re.findall(r'\((.*?)\)',res.text)[0])
return (results['result']['location']['lat'],results['result']['location']['lng'])
df['(lat,lng)'] = df['location'].apply(get_location)
print('耗时 {}s'.format(time.time()-start))
print(df)
为了测试转换效率,这里我加了一个计时器;98 条数据成功转换后共耗时 4.65s 左右,效率还不错,要比 Geopy 优秀得多,
3.5 案例源码数据
我已经把本案例中用到代码的数据打包再一起了,感兴趣的可以在公号程序员大飞后台回复关键字:210418 ,即可获取!
4. 小结
上面介绍了这么多,最后做个小结;聊一下这两种方法在 地理坐标转换方面 各自的优势和劣势
- 第三方API
- 优势:地理编码、逆编码比较准确,精度高;且支持高并发;
- 劣势:不支持国外,环境配置较为复杂;
- Geopy (用 Nominatim 模块的话)
- 优势:简单方便,上手快;支持国外地理编码
- 劣势:不支持并发访问、效率低且精度较低;
这里给大家一个建议,如果地址数据在国内的话 经纬度转换 建议用第三方 API,稳定且准确;若是涉及下纬度距离计算、单位换算或地址数据在国外,建议用 Geopy
好了,以上就是本篇文章的全部内容啦,如果对你有所帮助,点个赞是对我最大的鼓励
最后感谢大家的阅读,我们下期见~