有关空间数据挖掘的启发

12月14日,谢幸老师给我们做了一个关于空间数据挖掘的讲座。谢老师1992年进入科大少年班,2001年获得科大的计算机博士学位,同年加入MSRA。虽说谢老师是我的导师,并且我已在MSRA实习了两个月,但是通过这次讲座,我发觉我们组里仍然有很多我所不了解的项目。

简单解释下什么叫空间数据挖掘(spatial data mining)。日常的许多数据,例如GPS记录、带标记的照片等等,都包含着有关位置、时间、形状等方面的信息。所以通过对这些数据的挖掘,我们可以获得一些常规基于文本的挖掘所没有信息。例如对个人GPS轨迹的挖掘,可以窥探出个人的喜好,各种地点的流行程度之类的信息。进而可以为大众提供一些有关地理位置的建议。

若干年前,GPS对于一般人来说还是个稀罕东西,但是目前已经相当普及了(至少在发达国家如此)。谢老师和他的团队在GPS不那么流行的时候就开始相关研究,目前已经取得了不错的成果。

谢老师首先简单介绍了目前比较成熟的基于地理位置的网络服务,可惜其中大多数在中国大陆都不能访问L。

结合我自己的理解,我再复述一下谢老师介绍的几项工作:

  • T-Drive

众所周知,出租车司机是最熟悉城市道路交通状况的人之一,利用他们的经验,我们可以大大改善现有的驾车线路搜寻的服务。但是怎么获取他们的经验呢?是的,利用他们的GPS轨迹。北京大多数出租车都装有GPS,利用其记录的轨迹,我们可以窥探出司机经验的点点滴滴。

这当中有很多难点:

  • 出租车GPS的记录频率很低,大约几分钟才记录一个点,推算出出租车实际的轨迹就比较困难了;
  • 出租车载客和不载客时,司机驾驶的策略是不同的,显然要区别对待。然而我们的数据中有一本分没有标定何时载客何时不载客,如何消除其影响?
  • 最后,用什么样的模型来处理?

T-Drive项目就是利用北京出租车的GPS轨迹来给出一个驾车线路的建议。

打个广告: Jing Yuan, Yu Zheng, Chengyang Zhang, Wenlei Xie, Xing Xie, Guangzhong Sun, Yan Huang的论文《 T-Drive: Driving Directions Based on Taxi Trajectories》获得了ACM GIS 2010的best paper runner-up

  • Geolife

Geolife其实是个挺好玩的项目(至少对于用户来说是的……)。用户可以把自己旅游的GPS轨迹和照片上传到Geolife,还可以添加注释,然后便可以像放DV一样观看自己整个旅行的过程。重头戏在于,在积累了相当的数据之后,我们可以挖掘出受欢迎的地点和旅行线路,同时可以找出用户中的旅行专家。而且根据用户自身的数据,我们还可以给出个性化的推荐,例如推荐朋友和其他旅行地点。

这个项目当中也有很多难点:

  • GPS轨迹只包含位置和时间,我们怎么确定用户乘坐怎样的交通工具以及在哪里停留过?
  • 用怎样的模型挖掘受欢迎的地点、旅行线路和旅行专家?
  • 用户和用户间在轨迹方面的相似程度怎么衡量?

如果去看看谢老师和郑宇的文章就能解答了J

我目前的工作是在前人的基础上,把Geolife开发成一个比较稳定,能够给广大用户使用的系统。坦诚地说,这个工作量比较大……

再打个广告:http://research.microsoft.com/apps/pubs/?id=141896 含有Geolife标定了交通方式的轨迹数据

谢老师还介绍了对含有地理信息的图片数据的挖掘,以及根据地理信息对搜索关键字的归类等项目。

最后提一点小建议,或许对于我们来说,少一点公式,多一点直观概念上的描述或许更为有益。毕竟这个课程主要是为了开阔视野,细节上的问题我们可以去看paperJ

 

posted @ 2010-12-17 20:27  MSRA_SE_TEAM  阅读(921)  评论(0编辑  收藏  举报