谈谈数据库原理

注：文中讲述的原理是推理和探讨，和现实中的实现不一定完全相同。

数据库呢，主要分为 5 大部分，

1 Sql 分析器

2 查询(更新)计划器

3 数据存储检索

4 优化策略

5 事务（Transaction）

第一个部分 Sql 分析器呢，涉及到编译原理语法分析的知识和关系运算的知识，但这并不难，我写了一个项目 SelectDataTable ，可以解析简单的 Sql 语句，通过 Sql 语句在 DataTable 中查询数据，可以参考： https://www.cnblogs.com/KSongKing/p/9455216.html

第二个部分查询(更新)计划器，这个部分就是把 Sql 解析的结果转换为数据存储检索的指令。

第三个部分数据存储检索，就是数据如何在磁盘上存储和检索。我们来详细谈一下这个部分。

数据在磁盘上存储检索的基础，是数据块（Data Block），就是说，把要存储的数据分成一个一个的数据块。比如，我们可以定义数据块的大小是 4K 。

那么，在数据库里，数据是以表和表记录的形式存在的，那么就把表记录放到数据块里存储。当然一笔表记录的大小不能超过数据块的大小。

那么如何检索呢？将数据块从磁盘读取到内存，在内存里进行检索。

如何更新呢？如果数据所在的数据块已经在内存里，就先对内存里的数据块更新，在适当的时候再批量更新到磁盘上。如果数据不在内存里，需要直接更新磁盘。从这里可以看出来，更新可能频繁写磁盘，需要频繁移动磁头，在固态硬盘的时代，这个问题可能会改善很多。另外也可以看出来，如果内存足够大，那么可以把大量的数据加载到内存里在内存里查询更新，在适当的时候才批量写入磁盘，这样处理速度可以加快。换句话说，内存的充分对于数据库效率很重要。实际的经验中，看到的情况大致也是这样。 ^ ^ 有充分的内存，数据库可以把整张表的资料和索引都加载到内存，这样查询和更新的速度是很快的。而经验中也经常会有这样的经验：第一次查询的时候会比较慢，后面就快了。实际上就跟数据库加载数据到内存的这个原理有关。

但上面说的有一点也不对。如果数据已经在内存里，那么更新了内存里的数据后，应立即更新磁盘上的数据。不然如果服务器突然断电，数据就丢失了。对于客户端来说，执行 insert update delete 成功后，就意味着数据已经持久化。

数据库通常会把数据存放在一个文件里。比如 Sql Server 。通过 FileStream 的 Position 属性，我们可以指定位置写入和读取数据块，以及指定位置直接更新数据块里的数据。这样，文件就可以看作一块地址空间，就像内存一样，可以像管理内存一样管理。当然，这是从地址这个角度来看是这样。从硬件属性来看，还是要考虑磁盘的机械读写的特性，顺序读写的效率比随机读写好，所以据说 B Tree 索引就是顺序存储索引的，而 B Tree 是使用最广泛的索引了吧！

但总的来说，固态硬盘的出现，会使这些问题改善很多。

第四个部分，优化策略主要是临时索引和并行计算等。临时索引是很有用的，它可以使数据库变得 “傻瓜化” ，不需要刻意的去设计和建立索引，就可以获得高效的查询性能。另外，完全依靠人工设计和建立索引也是很大的工作量，同时，固定的索引会在每次更新表时都要更新索引，同时索引会一直占用存储空间，所以临时索引还让数据库的使用轻松灵活了。

另外就是并行计算，并行计算看起来很诱人，很美好，但是仔细想想好像不是那么回事。数据库通常处于并发的场景下。在高并发下，每个 CPU 核都会处理 n 个请求，如果还要把每个请求的查询任务分成若干个任务并行执行，好像意义不大。

第五个部分，事务是数据库的重头戏。事务通过事务日志（Transaction Log）实现。当一个事务开始时，首先会在事务日志中记录该事务已开始，并且只有在事务日志中记录日志成功，才会开始下一步的操作。对于事务来讲，为了保证数据完整性，或者说 ACID ，需要这样严谨的进行。可以说是 “环环相扣” 。接下来就开始执行更新操作，每一个更新操作，会分为 3 个步骤： 1 在事务日志中记录 Begin（包括要执行什么样的操作的信息）， 2 执行更新操作， 3 在事务日志中记录 End 。事务完成后，会再记录整个事务 End 。只有到这一步，整个事务才算结束，更新才彻底生效。正常情况下，如果需要回滚，可以根据事务日志来回滚，这容易理解，就不详细描述了。在异常情况下，比如服务器突然断电，在这样的情况下，要如何处理，才能使数据正确呢？数据库在重新启动时，会检查事务日志，会发现未完成的事务日志（没有记录 End 的），数据库会对未完成的事务进行回滚。

事务另外一个方面就是锁（Lock）。在事务开始时，会锁定表，这意味着从现在起，不允许对表开始新的操作，同时要求在当前所有对表的操作(包括 select) 结束后，才会开始本次事务的操作。那要怎么才能确定当前对表的操作都结束了呢？这大概还是需要通过锁。普通的 insert update delete select 也需要获得锁，这个锁应该是行级锁。 insert update delete 应该是独占锁， select 可以是共享锁。

基本上就这些。

按照这个原理，可以写一个数据库。呵呵呵呵

posted on 2018-08-17 11:15 凯特琳阅读(330) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 阿里最新开源QwQ-32B，效果媲美deepseek-r1满血版，部署成本又又又降低了！
· 单线程的Redis速度为什么快？
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决：字节Trae VS Cursor，谁才是开发者新宠？
· 展开说说关于C#中ORM框架的用法！

凯特琳

谈谈数据库原理

导航

公告

搜索

常用链接

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

凯特琳

谈谈 数据库原理

导航

公告

搜索

常用链接

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

谈谈数据库原理