kd-树笔记

以下内容均为本人近几天学习笔记,个人理解,并非完美答案,请抱着怀疑眼光阅读,如有错误请告知,感谢!

1.kd-树简介

1.1 特征:在任何情况下,kd-树都是一棵递归定义的平衡二叉搜索树

1.2 用途:常用于范围查询,高效解决多维范围查询。例如:快速在校友数据库中找到1970-2000年毕业并且身高在170-190cm且性别为男的校友。

2.kd-树的实现

2.1 一维kd-树:一维kd-树本质上就是平衡二叉搜索树,也可以看成线段树,一维的范围查找问题完全可以用线段树解决。这样便于推广到二维乃至k维。

2.2 kd-树的建树:

2.2.1 构造算法:

  • kd-树的建树应该将每个维度分为两个部分,并以中位点作为中点进行划分。
  • 增加一个属性深度(deep),那么kd-树维度维k,当深度为deep时,该对deep%k维进行划分。
  • k维kd-树本质上仍是平衡二叉搜索树,只是在每一层对不同维度进行划分,使左右节点数量相等,从而维持树高。

2.2.2 伪代码:(指针更方便,但更容易出错)

void BuildTree( int l , int r , int root , int deep){ //l是该维度的数据的左边界,r是右边界

        if(l > r)        return;//不存在数据

        isExist[root] = 1;//标记root存在数据

        isExist[ls] = isExist[rs] = -1;//(左右儿子初始化为不存在)

        int idx = deep%k;//找出划分哪个维度

        找中位点mid,同时使mid左面所有节点小于mid,右边所有节点大于mid;

        BuildTree(l , mid-1 , ls , deep+1);

        BuildTree(mid+1 , r , rs , deep+1);

}

2.3 kd-树的查询:

2.3.1 当前节点范围查询的三种情况:

  • A:该范围完全包含于该节点的左子树或右子树
  • B:该范围一部分在左子树,一部分在右子树
  • C:该范围既不在左子树也不在右子树

2.4 代码实例:HDU4347

#include <iostream>
#include <string.h>
#include <algorithm>
#include <stdio.h>
#include <math.h>
#include <queue>
 
using namespace std;
 
#define N 50005
 
#define lson rt << 1
#define rson rt << 1 | 1
#define Pair pair<double, Node>
#define Sqrt2(x) (x) * (x)
 
int n, k, idx;
 
struct Node
{
    int feature[5];     //定义属性数组
    bool operator < (const Node &u) const
    {
        return feature[idx] < u.feature[idx];
    }
}_data[N];   //_data[]数组代表输入的数据
 
priority_queue<Pair> Q;     //队列Q用于存放离p最近的m个数据
 
class KDTree{
 
    public:
        void Build(int, int, int, int);     //建树
        void Query(Node, int, int, int);    //查询
 
    private:
        Node data[4 * N];    //data[]数组代表K-D树的所有节点数据
        int flag[4 * N];      //用于标记某个节点是否存在,1表示存在,-1表示不存在
}kd;
 
//建树步骤,参数dept代表树的深度
void KDTree::Build(int l, int r, int rt, int dept)
{
    if(l > r) return;
    flag[rt] = 1;                   //表示编号为rt的节点存在
    flag[lson] = flag[rson] = -1;   //当前节点的孩子暂时标记不存在
    idx = dept % k;                 //按照编号为idx的属性进行划分
    int mid = (l + r) >> 1;
    nth_element(_data + l, _data + mid, _data + r + 1);   //nth_element()为STL中的函数
    data[rt] = _data[mid];
    Build(l, mid - 1, lson, dept + 1);  //递归左子树
    Build(mid + 1, r, rson, dept + 1);  //递归右子树
}
 
//查询函数,寻找离p最近的m个特征属性
void KDTree::Query(Node p, int m, int rt, int dept)
{
    if(flag[rt] == -1) return;   //不存在的节点不遍历
    Pair cur(0, data[rt]);       //获取当前节点的数据和到p的距离
    for(int i = 0; i < k; i++)
        cur.first += Sqrt2(cur.second.feature[i] - p.feature[i]);
    int dim = dept % k;          //跟建树一样,这样能保证相同节点的dim值不变
    bool fg = 0;                 //用于标记是否需要遍历右子树
    int x = lson;
    int y = rson;
    if(p.feature[dim] >= data[rt].feature[dim]) //数据p的第dim个特征值大于等于当前的数据,则需要进入右子树
        swap(x, y);
    if(~flag[x]) Query(p, m, x, dept + 1);      //如果节点x存在,则进入子树继续遍历
 
    //以下是回溯过程,维护一个优先队列
    if(Q.size() < m)   //如果队列没有满,则继续放入
    {
        Q.push(cur);
        fg = 1;
    }
    else
    {
        if(cur.first < Q.top().first)  //如果找到更小的距离,则用于替换队列Q中最大的距离的数据
        {
            Q.pop();
            Q.push(cur);
        }
        if(Sqrt2(p.feature[dim] - data[rt].feature[dim]) < Q.top().first)
        {
            fg = 1;
        }
    }
    if(~flag[y] && fg) 
        Query(p, m, y, dept + 1);
}
 
//输出结果
void Print(Node data)
{
    for(int i = 0; i < k; i++)
        printf("%d%c", data.feature[i], i == k - 1 ? '\n' : ' ');
}
 
int main()
{
    while(scanf("%d%d", &n, &k)!=EOF)
    {
        for(int i = 0; i < n; i++)
            for(int j = 0; j < k; j++)
                scanf("%d", &_data[i].feature[j]);
        kd.Build(0, n - 1, 1, 0);
        int t, m;
        scanf("%d", &t);
        while(t--)
        {
            Node p;
            for(int i = 0; i < k; i++)
                scanf("%d", &p.feature[i]);
            scanf("%d", &m);
            while(!Q.empty()) Q.pop();   //事先需要清空优先队列
            kd.Query(p, m, 1, 0);
            printf("the closest %d points are:\n", m);
            Node tmp[25];
            for(int i = 0; !Q.empty(); i++)
            {
                tmp[i] = Q.top().second;
                Q.pop();
            }
            for(int i = m - 1; i >= 0; i--)
                Print(tmp[i]);
        }
    }
    return 0;
}

《数据结构(C++语言版)》——邓俊辉    P242

posted @ 2018-10-05 19:43  Dr_Lo  阅读(195)  评论(0编辑  收藏  举报