T-SQL查询的逻辑工作原理

很多朋友都会使用T-SQL编写查询，但实际上对于其工作原理大多知之甚少。下面我们来分析一下查询的逻辑工作原理，也就是说一个查询到底是怎么一步一步的工作，最终给我们展示数据的。

认真观察下面这个图。想想看，这是我们常写的语句，你真的有没有想过哪个部分是先执行，而哪是个后面执行的呢

ON,WHERE,HAVING是三种筛选的子句。正因为他们是在SELECT语句执行之前执行的，所以他们所用的表达式是不可以为SELECT子句中重命名的列的

他们还有一个共同特征，如果比较运算符的一个部分为NULL，则既不返回TRUE也不返回FALSE，而是返回UNKNOWN

下面我们用一个实例来讲解这些步骤

第一步：准备实验环境和数据

SET NOCOUNT ON;
USE tempdb;
GO
IF OBJECT_ID('dbo.Orders') IS NOT NULL
  DROP TABLE dbo.Orders;
GO
IF OBJECT_ID('dbo.Customers') IS NOT NULL
  DROP TABLE dbo.Customers;
GO
CREATE TABLE dbo.Customers
(
  customerid  CHAR(5)     NOT NULL PRIMARY KEY,
  city        VARCHAR(10) NOT NULL
);

INSERT INTO dbo.Customers(customerid, city) VALUES('FISSA', 'Madrid');
INSERT INTO dbo.Customers(customerid, city) VALUES('FRNDO', 'Madrid');
INSERT INTO dbo.Customers(customerid, city) VALUES('KRLOS', 'Madrid');
INSERT INTO dbo.Customers(customerid, city) VALUES('MRPHS', 'Zion');

CREATE TABLE dbo.Orders
(
  orderid    INT        NOT NULL PRIMARY KEY,
  customerid CHAR(5)    NULL     REFERENCES Customers(customerid)
);

INSERT INTO dbo.Orders(orderid, customerid) VALUES(1, 'FRNDO');
INSERT INTO dbo.Orders(orderid, customerid) VALUES(2, 'FRNDO');
INSERT INTO dbo.Orders(orderid, customerid) VALUES(3, 'KRLOS');
INSERT INTO dbo.Orders(orderid, customerid) VALUES(4, 'KRLOS');
INSERT INTO dbo.Orders(orderid, customerid) VALUES(5, 'KRLOS');
INSERT INTO dbo.Orders(orderid, customerid) VALUES(6, 'MRPHS');
INSERT INTO dbo.Orders(orderid, customerid) VALUES(7, NULL);

以上语句是在tempdb中创建了两个表，分别表示客户信息和订单信息。订单表与客户表是通过customerid进行连接的。我们也分别为他们输入了一些数据。如下面所示

如你所见，这两个表很简单的

第二步：准备一个查询做测试

/*
一个测试查询，检索那些订单个数小于3的客户，并且按订单总数排序（升序）
*/
SELECT C.customerid, COUNT(O.orderid) AS numorders
FROM dbo.Customers AS C
  LEFT OUTER JOIN dbo.Orders AS O
    ON C.customerid = O.customerid
WHERE C.city = 'Madrid'
GROUP BY C.customerid
HAVING COUNT(O.orderid) < 3
ORDER BY numorders;

同样是很简单的一个查询，它返回是订单总数小于3的客户。如下所示

很多朋友研究到这里就停止了，不过，我们下面要详细的分析这个查询的结果是怎么出来的

/*第一步：处理FROM子句，把来源的表进行CROSS JOIN（笛卡尔乘积）
我这里把结果做一个生成表查询，写到一个临时表（VT1)中去
*/
SELECT C.customerid as Customer,c.city,o.*  INTO #VT1 FROM dbo.Customers C,dbo.Orders  O
SELECT * FROM #VT1
--返回28行数据（4*7)

--第二步：处理ON子句，只把那些两个表的customerid匹配的行找出来，我把它们放到VT2中去
SELECT temp.* INTO #VT2 FROM (SELECT * FROM #VT1 WHERE Customer=customerid) temp
SELECT * FROM #VT2
--返回6行数据

--第三步：根据JOIN语句的类型，决定是否要添加行到VT2中去，例如如果是LEFT  JOIN的话，那么就要检查坐边的表（我们这里是customers表）的连接键值是否都存在，如果不存在就要去添加到VT2中
SELECT temp.* INTO #VT3 FROM
(SELECT * FROM #VT2
UNION ALL
SELECT CustomerID,City,NULL,NULL FROM dbo.Customers c WHERE NOT EXISTS(SELECT DISTINCT Customer FROM #VT2 WHERE Customer=c.CustomerID)) temp
SELECT * FROM #VT3
--返回7行数据，其中有一个客户，因为没有订单，这一步中被添加进来。它的Orders的记录被标记为NULL

--第四步：处理WHERE 子句，对VT3的结果集进行过滤，我们的条件是city=Madid
SELECT temp.* INTO #VT4 FROM
(SELECT * FROM #VT3 WHERE city='Madrid') temp
SELECT * FROM #VT4
--返回6行数据，因为有一个客户不是这个城市的

--第五步：处理GROUP子句,进行分类汇总
SELECT temp.* INTO #VT5 FROM
(SELECT Customer,COUNT(OrderID)  as orderidcount,COUNT(city) as citycount,Count(customerid)  as customeridcount FROM #VT4 GROUP BY Customer) temp
SELECT * FROM #VT5
--返回3行数据，根据客户分组，统计了订单的个数 
--这里会不会去统计其他列的汇总呢

更正：这一步，逻辑上的数据结构是下面这样的，也就是说其实并没有计算。而是分组

--因为没有WITH Rollup和WITH Cube语句，所以跳过第六步，进入HAVING子句的处理

--第六步：处理HAVING子句，对GROUP之后的结果进行筛选，我们这里的条件是orderidcount<3
SELECT temp.* INTO #VT6 FROM
(SELECT * FROM #VT5 WHERE orderidcount<3) temp
SELECT * FROM #VT6
--返回2行数据

--第七步：使用SELECT 的字段列表过滤结果集
SELECT #VT6.Customer,#VT6.orderidcount as  numorders  INTO #VT7 FROM #VT6
SELECT * FROM #VT7
--还是2行数据，只不过只有两个列了

SELECT 返回的结果在内部其实是一个游标集，本身并没有顺序，它就好比是一个集合。

--第八步：跳过DISTINCT,进行OrderBy操作
SELECT #VT7.* INTO #VT8 FROM #VT7 Order By #VT7.Customer
SELECT * FROM #VT8
--返回2行数据，经过排序

 

--这个查询结束演示。完整的8个步骤
仔细看看，是不是我们需要的结果呢？

posted @ 2008-11-10 09:51 陈希章阅读(1433) 评论(2) 编辑收藏举报

刷新页面返回顶部

陈希章@中国

T-SQL查询的逻辑工作原理

公告