SQL Server 2008之数据类型

数据类型的选择帮助优化查询，比如针对int类型列和针对文本类型列可能会生成完全不同的查询计划

三种数据类型：

系统数据类型

别名数据类型：用户可以为系统数据类型提供一个别名，并且可以对数据类型做进一步限制，这样可以保持数据库和应用程序的一致性

用户自定义数据类型：引入的托管代码中的数据类型，包括CLR中的系统数据类型和CLR中用户自定义数据类型

整数数据类型：

tinyint存储的是一个字节（8位），值范围是0-255
smallint存储的是两字节（16位），值范围是-32768-32767
int存储的是四字节（32位），值范围是-2147483648-2147483647
bigint存储的是八字节，值范围是-2^63 - 2^63-1，存储的是非常大的整数值

分数数据类型：

decimal：ANSI兼容，允许指定整数位和小数位
numeric：功能上和decimal是一样的
money、smallmoney：以前遗留下来的数据类型，用来存储货币值，四个小数位精度，通常使用decimal代替这个数据类型

bit数据类型：存储1位值，存储上有优化，如果一张表中少于8个的bit列，他们将被存储在一个字节中，通常用来存储boolean值；在SQL Server中bit值没有字符串形式，True和False只是可以转化为bit值，就像整数值1、0可以转化为bit值一样，底层bit值存储的不是True或False，也不是整数值1、0，而只是一位值而已；高级语言中False都使用0来存储，而True存储根据语言不同使用不同的值，因此在检测boolean值时，使用@inputvalue=0来检测false，使用@inputvalue<>0来检测true，不要使用@inputvalue=1来检测true值，在有的语言中得不到预期的结果；bit类型值还可以存储null值，也就是说bit类型值共有三种状态0,1,null
IDENTITY和int或者bitint列一起使用，通过SET IDENTITY_INSERT ON开关，允许在IDENTITY列显式插入值，具有IDENTITY属性的列不能够保证值都唯一，因为可以显式插入值；可以通过系统变量@@IDENTITY检索最近一次IDENTITY值，使用@@IDENTITY的问题是：当插入一条记录到Customer表中时，这个customer被赋予一个新的identity，但是如果这个表有一个触发器，这个触发器在插入时将这个条目写入到audit logging table中，@@IDENTITY返回的是logging table值，而不是Customer表的值；此时需要使用SCOPE_IDENTITY函数，它提供的是当前范围Scope内最新identity值；当一次插入多行记录时，通过OUTPUT语句检索IDENTITY值（通过检索inserted表来检索该值），插入一条记录时，使用这种方法也可以检索插入的值
近似数据类型通常用在科学计算应用程序中，而不是商业应用程序中，不要使用近似数据类型存储货币值这样的商业值

real：存储的是4字节（32位），精确到7位小数
float(n)：n代表用来存储尾数的位数，n默认等于53，当n在1-24范围时，n=24，即精度为7位小数，使用4字节存储，也就是real数据类型的值；当n在25-53范围时，n=53，即精度15位小数，使用8字节存储

SQL Server支持丰富的日期和时间数据类型，需要非常小心每个类型的字符串形式，大量函数可用来处理这些类型

date：符合ANSI标准，范围0001-01-01 to 9999-12-31，精确到天
time：符合ANSI SQL标准，范围00:00:00.0000000 to 23:59:59.9999999，精确到100纳秒，允许指定小数位数，即定义纳秒的位数
datetime2：是date和time类型的组合

datetime：旧版本的日期时间类型，范围1753-01-01 to 9999-12-31，精确到3.33毫秒，datetime类型根据语言设置将字符串转化为日期，"YYYYMMDD"总是可以转化为正确的日期时间类型，"YYYY-MM-DD"可能会被当做"YYYY-DD-MM"格式进行转化，取决于设置，date类型不会有这样的行为

datetimeoffset： datetime2和timezone offset的组合，日期时间部分代表本地时间，timezone offset范围-14:00 to +14:00，表示和UTC时间的偏移量，注意date类型是和时区无关的

GUID就是一个数字分配器，保证一个程序生成的值和其他程序生成的值不冲突，是128位值；在SQL Server中对应的数据类型就是uniqueidentifier，该类型允许的操作只包括=、<>、<、>、<=、>=以及是否为null的检测IS NULL 、IS NOT NULL；该数据类型定义的列上不允许使用IDENTITY；通过NEWID()函数生成新的GUID值，该函数生成的GUID值具有非常大的随机性，有性能问题，NEWSEQUENTIALID()函数试图解决NEWID()函数的随机性，不过它是以牺牲唯一性为代价的

NULL是数据库列的状态，不是数据类型的值，使用IS NULL检测是否为null，而不是使用=NULL检测是否等于null；为数据库列指定不当的nullability是常见的设计错误

Unicode常量要求在前面都加上N前缀，使用LEN()函数返回字符的数量，使用DATALENGTH()返回字节数量

字符数据类型：

char和nchar：存储固定长度的字符，如果这两个类型值的字符长度不够的话，在尾部使用空格填充，使用时通常都需要去掉尾部的空格，char使用单字节存储，nchar采用双字节存储

varchar和nvarchar：用来存储变长字符串，允许你指定一个字符串的最大长度，nvarchar用来存储unicode字符（即双字节字符），varchar和nvarchar限制在8000和4000个字符上限，正好是数据库中一个数据页的大小

varchar(max)和nvarchar(max)：存储更长的字符，它们允许存储高达2GB的数据

text和ntext：旧数据类型，被启用，使用varchar(max)和nvarchar(max)替换这两个数据类型

sysname：SQL Server中对象名称通常都是该类型，是nvarchar(128)的别名

Collation用来控制在SQL Server中存储的非Unicode数据使用的代码页，以及SQL Server中排序和比较字符值时使用的规则

code pages代码页：在计算机中每个字符使用一个字节，共有256个字符，0-31作为控制字符，比如回车（8）、Tab（9）、空格（32），一直到Delete（127）；127以上的值则根据标准不同表示不同的含义，这些标准在MSDOS操作系统中就被称为代码页，一个代码页就定义128-255之间的字符的用途，这些代码页0-127之间的字符定义都是相同的

共有两类Collations：SQL Server Collations和Windows Collations，SQL Server Collations用来保持向后兼容性，鼓励使用Windows Collations，SQL Server Collations名称采用如下形式：SQL_SortRules[_Pref]_CPCodePage_ComparisonStyle

SortRules：使用的字母表或者语言

Pref：是否大写字母优先

CodePage：代码页，1-4位整数，由于历史原因CP1使用的是1252代码页，其他正常

Comparison Style：BIN表示按二进制排序或者case、accent是否敏感的组合，CI不区分大小写，CS区分大小写，AI不区分语调，AS区分语调

可以在服务器、数据库、列级别设置Collations，当比较使用不同的Collations存储的数据时，要求指定用于比较的Collations

CAST是ANSI SQL中标准的数据类型转换操作符，Convert则提供了更加强大的功能，允许你指定如何执行类型转换，即允许指定转换的格式Style，注意Style通常是关于字符串输出的，但是也可以用来处理字符串输入，即解析字符串

尽量避免隐式转换，因为隐式转换可能会带来非期望的结果，隐式转换经常出现的问题：

为目标类型指定了不恰当的值，比如不恰当字符串转换为int值

为目标类型指定值超出了该类型的范围，比如为tinyint类型指定了300

在转换时值被截断（有时是悄悄的），比如CONVERT(varchar(6),SYSDATETIME(),112)，112格式通常返回8位字符串，当转换为6位字符串时，就被悄悄截断

在转换时值被舍入（有时是悄悄的），比如datetime类型值20051231 23:59:59.999被悄悄转换为20060101 00:00:00.000

在转换时值被修改（有时是悄悄的），SELECT 5ee，被悄悄修改为5

对数据类型内部存储做假设，依赖于数据类型内部存储是非常危险的，因为内部表示随着时间会发生变化
一些日期类型转换依赖于语言设置，比如2010-05-04即可以转换为2010年5月4日，也可以转换为2010年4月5日
有一些解析问题难以理解，比如SELECT 5ee

rowversion数据类型是用来帮助处理并发的，之前SQL Server使用的是timestamp，现在timestamp已经被弃用；在每次修改数据行时，rowversion值都自动被修改，当你要提交数据修改时，首先检查是否存在rowversion值的行，如果不存在，则说明数据已经被修改，此时在使用相应的策略，注意这里存在竟态条件，即你检查时没有发现数据被修改，但是提交前数据却被修改；rowversion在数据库中保存一个计数器，所有修改都会让计数器增加，可以使用系统变量@@DBTS检索返回的rowversion值

Alias data types就是系统内置数据类型的子类型，使用CREATE TYPE语句创建，包含了是否可以为null的说明，通常用来维护应用程序中使用的数据类型的一致性（比如定义了ProductNum类型，其为nvarchar(20)，则使用ProductNum定义的列都是nvarchar(20)，不会出现在一个表中product number是nvarchar(20)，在另一个表中是nvarchar(22)）；数据库公共角色都自动被授予对Alias data types的REFERENCES权限，即公共角色都自动可以引用创建的Alias data types

其他数据类型：

binary、varbinary、varbinary(max)：用来存储任意的大的二进制对象（blobs）

image：已经被遗弃，应该使用varbinary(max)

hierarchyid：是在托管代码中实现的，代表树中的节点

sql_variant：用来存储未知类型的数据，很少使用

cursor：在构造基于游标的代码时，保存对游标的引用

table：保存整个结果集

geometry、geography

发表于 2012-12-22 23:11 马啸西风阅读(7158) 评论(0) 编辑收藏举报

刷新页面返回顶部

SQL Server 2008之数据类型

公告