MySQL JOIN算法原理

MySQL的JOIN相关操作,是通过“嵌套循环连接算法,NLJ”或者该算法的优化变体“块嵌套循环连接算法,BNLJ”来实现的。

嵌套循环连接算法

两个表join时,可以简单理解为两层for循环,外层循环一般称作驱动表,循坏内层称作被驱动表。每次取出驱动表中一条数据,然后通过内循环遍历被驱动表,并在循环体中判断驱动表记录与被驱动表记录是否匹配。直到驱动表的全部记录都处理完毕为止。这就是嵌套循环连接算法的基本思想,伪代码如下。

for each row in t1 {
  for each row in t2  {
      if row satisfies join conditions, send to client
  }
}
块嵌套循环连接算法

大致思想就是建立一个缓存区,一次从驱动表中取多条记录,然后扫描被驱动表,被驱动表的每一条记录都尝试与缓冲区中的多条记录匹配,如果匹配则连接并加入结果集。缓冲区越大,驱动表一次取出的记录就越多。这个算法的优化思路就是减少内循环的次数从而提高表连接效率。伪代码如下。

for each row in t1 {
    store used columns from t1 in join buffer
    if buffer is full {
      for each row in t2 {
          if row satisfies join conditions, send to client
        }
      }
      empty join buffer
    }
}
posted @ 2021-02-02 21:13  数大招疯-公众号同名  阅读(230)  评论(0编辑  收藏  举报