开源 GIS 数据库的 20 个年头


2001 年 5 月 31 日,雅虎小组上发送了一封邮件,宣布 PostGIS 第一个版本发布。

PostGIS 与原作者 Paul Ramsey 在 90 年代创办的一家咨询公司 Refractions Research 有很大关系。他的第一桶金是 British Columbia 省政府给的,政府由于自己的原因不想用 ESRI 的软件,所以他的公司就积累了大多数“GIS公司”没有的技能和经验。

他们比较擅长数据库和 FME,最开始擅长 Perl,最后变成了 Java。他们起初最开始的产品叫 Facet,现在不用了,是他们最初四年左右的业务核心。这玩意儿是那个政府任务的关键部分,他们做的事情是编写分析程序,对外提供空间数据分析和导出表格、地图的功能。

考虑到那个时代的算力,他们不得不使用多个 Sun 工作站在全省范围内跑运算,然后把结果放进当时的 PostgreSQL 中。

将碎化的空间数据作为 BLOB 导入到 PostgreSQL 是 PostGIS 的灵感来源,很明显,他们那时候已经具备了交互式实时分析引擎的基础,倘若他们可以更进一步,对这些 blob 做更多的事情,而不是简单的存个 blob 字段值,那就更有趣了。

或许应该做一个空间数据库

观察 2000 年那时的空间数据库,会发现有这些:

  • Oracle 8i 的空间数据选项
  • OpenGIS Simple Features for SQL 规范

然后就没别的了。

最终,他们采取了两个措施,一成一败。

第一个措施,希望省政府能聘用一家精通 Oracle 空间功能的咨询公司。省政府实际上希望在 Oracle 空间功能基础上做标准化,但是几经努力仍没什么进展。

那时的甲骨文并没把 GIS 作为普遍需求,认为 GIS 仍然是一个特殊的领域,没有看到“空间数据库”有啥用途。

下图:当时的 Oracle 中的空间数据功能。

image

或许,这样未尝不是一件好事。

第二个措施,那就是探索 OpenGIS Simple Features for SQL 规范中所描述的空间数据模型是否可以落地。除了对空间数据类型和要素的描述外,规范中还描述了如何在表中存储空间数据。

image

存储方案如下:

方案1A:每个要素分解其坐标分量,即 x、y、z 等,分别存储在普通关系数据表的行列中;

方案1B:存“二进制大对象(BLOB)”

方案2:存“几何类型”

由于之前的工作积累了使用 PostgreSQL 的经验,他们对其进行了理论测试,希望能把空间数据存储在数据库中,并且有效地能提取出来,这样才能制作一个由 PostgreSQL 支撑起来的空间数据查看器。

image

对于查看器的实现,他们使用了 JShape(一种 Java applet)库来实现并实验,顺带给客户做了一些小网页应用。因为它能连接到动态数据库而不是静态文件,这让人很感兴趣。

所有的开发工作都是在 Sun Ultra 10 台式机上完成的,说的是创办公司时借了 10000 美刀贷款买的。当时,他们的收入大部分来自 Facet 软件,这玩意儿只跑在 Sun 的硬件平台上。

image

对于方案1A,把几何坐标切碎分到关系表里然后取出来重新组成几何,这个慢到爆,根本没法用;

对于方案1B,使用 PostgreSQL 的 BLOB 类型存储大对象,速度好很多,但是还是不够满意,因为没什么办法给空间数据添加空间索引。

突破

由于方案1A/B 比较糟糕,他们几乎停止了开发,他们甚至已经翻遍了 PostgreSQL 文档。

团队中的大佬,Dave Blasby,他学过计算机科学(当时团队大部分人是数学和物理学的背景),不忌惮低级语言,他上去就是看 PostgreSQL 的源代码和如何贡献代码的资料,然后就排出“给我点时间,我做一个自定义的类型来存储空间数据”的豪言壮语。

Dave 花了几天时间,结果:成了。

当 Dave 写出一个大概之后,他们把草鸡程序连接到 applet 程序上,随后就高歌猛进了。

即使加载足够大的数据表,缩放数据、绘制地图,它也很快。原本是 Unix 工作站上的 XWindows 屏幕上能看到的玩意儿,现在居然能在普通 PC 的 applet 上运行,太感人了。

团队已经从 PostgreSQL 那获得了不错的体验,但是 PostgreSQL 的扩展插件没什么商业生态,所以最好的办法就是把 PostGIS 开源放在那晾着,看看有没有什么关注度。

当时 Refractions 好像有 6 个人吧(作者记得不是很清楚了),很多人都为首发做出了贡献。

  • Dave Blasby 继续完善代码,添加了一些有趣的功能;
  • Jeff Lounsbury 是唯一会 C 语言的,他负责把 shp 文件转换成 SQL,以便更轻松加载已有的空间数据文件;
  • 原作者本人 Paul Ramsey 则承担了些 Makefile、CVS版本管理、写文档以及为开源做准备的相关工作;
  • 生意上的合作人 Graeme Leeming 和 Phil Kayal 默许了这种开源行为。Chris Hodgson 是一个很聪明的开发者,他应该挺忙的,起初没来,不过后面也出现在了提交日志中。

发布

最后,在 2001 年 5 月 31 日,Dave 发布首发消息,它就是 PostGIS 0.1,如果你想,你现在仍然可以下载到它。

译者注:GitHub 官方仓库的第一个 commit tag 还保存得很完整,那个就是 PostGIS 0.1 的提交,你甚至能看到简朴的文本日志。

第一个版本有一个几何类型(GEOMETRY),它使用 PostgreSQL GIST API 作为空间索引,以及附送了下列函数:

  • npoints(GEOMETRY)
  • nrings(GEOMETRY)
  • mem_size(GEOMETRY)
  • numb_sub_objs(GEOMETRY)
  • summary(GEOMETRY)
  • length3d(GEOMETRY)
  • length2d(GEOMETRY)
  • area2d(GEOMETRY)
  • perimeter3d(GEOMETRY)
  • perimeter2d(GEOMETRY)
  • truly_inside(GEOMETRY, GEOMETRY)

truly_inside() 是唯一的分析函数,它只是用来计算一个点是不是在一个多边形内。

现在回过头看 2001 年那些早期的邮件,感叹 20 年里 PostGIS 集成各路开源地理空间成果的速度是那么的快。

GDAL 的 Frank Warmerdam 和 MapServer 的 Daniel Morissette 在 PostGIS 发布的第一个月内就发布了贴子,Java GeoTools/GeoServer 方面的开发人员也很快就出现了。

对开源空间数据库的需求之大,可以想象。他们只是出现在了合适的时间点。

他们现在怎么样啦

  • Graeme,Phil,Jeff 和 Chris 仍然在 Refractions Research 从事地理空间咨询服务的工作
  • Dave 最初的几年里维护和改进了 PostGIS,离开 Refractions 后从事别的工作,但是依旧是开源地理空间方面的,主要是 GeoServer 和其它 Java 项目中
  • 作者本人 Paul Ramsey 觉得 PostGIS 有光明的未来,反而地理咨询工作并不能激起他的兴趣,2008年,他离开了 Refractions 并学习了足够的 C 语言,作为贡献者加入 PostGIS 开发社区,从那时到现在一直在做这件事,目前是 Crunchy Data 的地理空间执行工程师

译者注

原文来自 PostGIS 的初创,也是核心贡献者 Paul Ramsey 在 2021 年 5 月的博客 http://blog.cleverelephant.ca/2021/05/postgis-20-years.html

通过了解这段历史,在震撼、惊讶于世界开源 GIS 社区在这 20 年的持续发展的成果的同时,我更敬佩的是这群大叔在那个新千年伊始,那个或许与现在我差不多的年纪能做出那么有意义的事情。放到现在,说是开源 GIS 社区的开天辟地也不为过。

GIS 重数据,重概念,天生合适后端,彼时还没有数据库厂商把空间数据作为一个菜篮子,顶多就是存储一个非常简单的坐标、线、多边形之类的简单功能。

笑。现在国内跑业务的大部分团队不也是这样吗?

可是就是 20 年前那会儿,他们就意识到了这点,并做了开源。

时至今日,PostGIS 仍然是开源 GIS 数据库的一哥,MySQL 等数据库虽然有简单的空间功能,但与 PostGIS 融合了世界图形界多个成熟库做出来的一批函数相比,实在只能说还不够“GIS”味,好比早餐吃油条少了豆浆,缺了点什么。

现在,PostGIS 已经来到了 3.x,也有公司在背后背书,GitHub 上的源代码也仍然在有节奏地更新,有不错的学习价值。

希望阅读这些资料能对自己有所启迪,如果能启发读者,那是我的荣幸。

附件 PostGIS 中几何类型有关的结构体定义

第一个版本

typedef struct
{
	double x,y,z;  //for lat/long   x=long, y=lat
} POINT3D;

typedef struct
{
  POINT3D LLB,URT; /* corner POINT3Ds on long diagonal */
} BOX3D;

typedef struct
{
  int32 size;           // postgres variable-length type requirement
  int32 type;           // this type of geometry
  bool is3d;            // true if the points are 3d (only for output)
  BOX3D bvol;           // bounding volume of all the geo objects
  int32 nobjs;          // how many sub-objects in this object
  int32 objType[1];     // type of object
  int32 objOffset[1];   // offset (in bytes) into this structure where 
                        // the object is located
  char objData[1];      // store for actual objects
} GEOMETRY;


// ONLY FOR INDEXING
typedef struct geomkey {
  int32 size; /* size in varlena terms */
  BOX key;
} GEOMETRYKEY;

最新版本

而现在,它位于 https://github.com/postgis/postgis 仓库中 liblwgeom/liblwgeom.h.in 文件下,有着非常不一样的定义:

/******************************************************************
* LWGEOM (any geometry type)
*
* Abstract type, note that 'type', 'bbox' and 'srid' are available in
* all geometry variants.
*/
typedef struct
{
  GBOX *bbox;
  void *data;
  int32_t srid;
  lwflags_t flags;
  uint8_t type;
  char pad[1]; /* Padding to 24 bytes (unused) */
}
LWGEOM;
posted @ 2022-01-17 06:21  岭南灯火  阅读(767)  评论(1编辑  收藏  举报