2014 年 3月随笔档案 - Harveyaot

建立网格索引(代码）

摘要：见原文，转自http://longriver.me/?p=355空间检索中网格索引的引入网页的检索需要对每篇文档建立倒排索引，空间检索中，需要对每个地域建立网格索引。简单说就是要将地域划分成一个个的网格(mesh)，每个网格有个单独的id，唯一标示，利用局部性原理，给出一个点，检索附近的点的时候，只需要计算相邻网格中的点，省去了全局的计算。图1 给出了网格的示例一般会应用场景是，给定一个点，计算器最近邻的几个地点，或者是判断一个坐标点是否落在一个区域内图1，将一个地域划分为网格，并给每个网格唯一id图2，AOI:圆明园，天安门，森林公园假设一种空间检索的应用场景，现在有一堆面状的区域... 阅读全文

posted @ 2014-03-26 21:36 Harveyaot 阅读(3261) 评论(0) 推荐(0) 编辑

shell脚本处理大数据系列之(二)使用函数返回值

摘要：转自http://longriver.me/?p=80随着shell脚本行数的增大，为了编写和维护的需要，想把一些特定的功能的代码抽取出来，组成函数的形式，放到一个叫做functions.sh中这样将来使用的时候只需要在脚本中source functions.sh 一下，然后就可以方便使用，处理大数据的时候，上篇博文提到过使用多线程处理是重要的手段，所以想到了写一个lock()函数，使得多个进程之间可以异步的工作。函数的返回值有两种用途1，返回函数结束的状态（可以是int，也可以是string）2，共享一些变量以下代码来自(EDIT: This is also true for some ot 阅读全文

posted @ 2014-03-14 14:05 Harveyaot 阅读(442) 评论(0) 推荐(0) 编辑

读Extracting Urban Patterns from Location-based Social Networks

摘要：转自http://longriver.me/?p=320这篇文章主要使用LDA topic model 对大众轨迹的pattern(topics)进行挖掘，读了之后，对LDA这种模型的认识又有了些新的认识：1，是其在处理大量的稀疏数据时表现出来的好的效果2，对这种概率分布的结果，可操作空间比较大，相... 阅读全文

posted @ 2014-03-14 14:03 Harveyaot 阅读(150) 评论(0) 推荐(0) 编辑

Python sorted 方法使用例子和稳定性分析

摘要：转自http://longriver.me/?p=325经常使用python built-in sort 方法，使用方法例子如下:1234alist=[1,2,3,4,5,6,7]blist=sorted(alist,key=lambdaele:ele,reverse=True)printblist[7,6,5,4,3,2,1]Sorted 方法用起来很方便，当alist的元素是个对象的时候可以自己定义对对象的排序，如1sorted(nb_stats,key=lambda stat:10*len(stat.night_day)+len(stat.day),reverse=True)有的时候我们阅读全文

posted @ 2014-03-14 14:02 Harveyaot 阅读(771) 评论(0) 推荐(0) 编辑

C++ debug 的宏定义（macros）支持变长变量方法小结

摘要：转自http://longriver.me/?p=325在编写C++/C 的项目，因为调试的需要，经常会输出debug信息，那如何输出debug信息呢？在C里面可以这样定义一个debug的宏12345#ifdef DEBUG_BUILD# define DEBUG(x) fprintf(stderr, x)#else# define DEBUG(x) do {} while (0)#endif到了CPP可以这样定义:123#define DEBUG(x) do { \if(debugging_enabled){std::cerr<<x<<std::endl;}\}whi 阅读全文

posted @ 2014-03-14 13:58 Harveyaot 阅读(817) 评论(0) 推荐(0) 编辑

使用Random Forest进行多分类和模型调优

摘要：转自 http://longriver.me/?p=329解决多分类问题的一些思考：存在大量的label数据，存在比较丰富的context信息，所以想训练分类模型来实现对样本类型的预测，目前是三个类别（0，1，2）候选拟采用的分类模型：LR，SVM，GBDT，RandomForest.这个预测是个多分类问题，ensemble 思想的 GBDT和 RandomForest方法天然支持多分类，效果可能更好，另外sklearn的库上有比较成熟的ensemble的方法，可以直接使用。常住点预测的多分类还是一个不平衡的多分类(classification imbalance)问题,样本之间数目比例差异较阅读全文

posted @ 2014-03-14 13:51 Harveyaot 阅读(2966) 评论(0) 推荐(0) 编辑

Trouble & Time are both my friends

03 2014 档案

建立网格索引(代码）

shell脚本处理大数据系列之(二)使用函数返回值

读Extracting Urban Patterns from Location-based Social Networks

Python sorted 方法使用例子和稳定性分析

C++ debug 的宏定义（macros）支持变长变量方法小结

使用Random Forest进行多分类和模型调优

公告

导航

搜索

常用链接

我的标签

随笔档案

阅读排行榜

推荐排行榜