步步惊“芯”——软核处理器内部设计分析

步步惊“芯”——软核处理器内部设计分析(含CD光盘1张)(掀开处理器的神秘面纱,带你遨游在一个简洁但不简单、复杂但不混乱的二进制世界

雷思磊 著

ISBN 978-7-121-20489-0

2013年7月出版

定价:75.00元

500页

16开

编辑推荐:

不唯上、不唯下、只唯实——本书对OR1200的一些介绍与OR1200手册以及其他学者不同,整本书也是按照三级流水线进行分析的。同时,本书指出了源代码中的一些错误,有些可能是笔误,有些就是设计缺陷(如:QMEM的设计)。

像剥洋葱似的,一步步接近核心——OR1200是一个系统、一个整体,各个模块之间的联系很紧密,相互影响。通过一步一步的探索,由简到繁,由不求甚解到全面了解,最后揭示得出结论,而不是直接给出结论,然后分析得出这个结论的理由。

感性与理性结合——除了对代码进行分析,本书还使用ModelSim进行仿真,通过ModelSim仿真结果可以直观地观察到任意时刻处理器内部任一信号的状态,既验证了代码分析的正确性,也使读者加深了印象。

内容提要

本书以开源32位软核处理器OR1200为研究对象,像引导读者如做解剖学实验那般,对其进行剖析,力图使读者对教科书上介绍的处理器有一个实践上的认识,打破处理器令人高深莫测的印象,同时使读者了解处理器设计的细节。OR1200包括CPUMMUCache、总线接口、电源管理、中断控制和计时器单元等多个模块,对于不同的模块,根据其难易程度,采用指令驱动分析法、情景分析法及直接分析源代码等不同的分析方法,便于读者理解。

通过阅读本书,读者可以掌握一款成熟的软核处理器OR1200的设计思路、实现方法,同时更加深刻、具体地理解计算机组成原理、计算机体系结构等课程介绍的知识。

本书适合计算机专业的学生、FPGA开发人员、处理器设计者、嵌入式系统应用开发工程师、对处理器内部实现感兴趣的读者及对这个世界充满好奇心的读者阅读,也可以作为高等院校计算机组成原理、计算机体系结构等课程的实践参考书。

目录

1OpenRISC介绍   1

1.1  开源软核处理器   1

1.2  OpenRISC 1000架构      4

1.3  OR1200——OpenRISC 1000架构的一个实现     4

1.3.1  寻址模式    5

1.3.2  位和字节次序    6

1.3.3  寄存器集    6

1.3.4  指令集         7

1.3.5  异常模型    8

1.4  OR1200代码组织 8

1.5  本书的分析方法   11

2章实验环境的搭建     13

2.1  GNU开发工具链的安装       13

2.2  GNU开发工具链的使用       18

2.2.1  一个简单的汇编程序         18

2.2.2  编译及ELF文件介绍 19

2.2.3  链接    21

2.2.4  Makefile文件      23

2.2.5  使用OR1KSim模拟器运行程序         24

2.3  创建OR1200运行的最小系统     25

2.3.1  最小系统的创建         26

2.3.2  运行仿真    29

2.3.3  修改Makefile      30

2.3.4  观察流水线         32

2.3.5  流水线介绍         33

2.4  本书的一些说明及定义        34

2.4.1  一些说明    34

2.4.2  一些定义    35

3  QMEM剖析     37

3.1  QMEM的作用        37

3.2  Wishbone总线快速了解       40

3.3  QMEMWishbone总线接口      43

3.3.1  QMEMCPUIMMU的连接          44

3.3.2  QMEMICache的连接   45

3.3.3  QMEMCPUDMMU的连接        46

3.3.4  QMEMDCache的连接 47

3.4  QMEM的内部RAM       49

3.5  复位后取第一条指令的过程分析        51

3.5.1  复位信号有效阶段    51

3.5.2  复位信号无效后的第一个时钟周期上升沿    56

3.5.3  复位信号无效后的第一个时钟周期的组合逻辑阶段    57

3.6  第二条及后续指令的读取过程分析   58

3.6.1  复位信号无效后的第二个时钟周期的上升沿         58

3.6.2  复位信号无效后的第二个时钟周期的组合逻辑阶段    59

4章数据处理类指令剖析     61

4.1  数据处理类指令说明   61

4.2  分析用例        65

4.3  流水线的简单模型        67

4.4  l.add指令分析       69

4.4.1  l.add取指阶段的组合逻辑输出        70

4.4.2  l.add取指阶段的时序逻辑输出        73

4.4.3  l.add译码阶段的组合逻辑输出        75

4.4.4  l.add译码阶段的时序逻辑输出        80

4.4.5  l.add执行阶段的组合逻辑输出        91

4.4.6  l.add执行阶段的时序逻辑输出        97

4.4.7  第一条指令分析小结         98

4.5  l.sfeqi指令分析     99

4.5.1  l.sfeqi取指阶段的组合逻辑输出      99

4.5.2  l.sfeqi取指阶段的时序逻辑输出      100

4.5.3  l.sfeqi译码阶段的组合逻辑输出      100

4.5.4  l.sfeqi译码阶段的时序逻辑输出      101

4.5.5  l.sfeqi执行阶段的组合逻辑输出      102

4.5.6  l.sfeqi执行阶段的时序逻辑输出      105

4.5.7  第二条指令分析小结         106

4.6  ALU分析         106

4.7  流水线数据相关的解决方法        112

4.8  定制属于自己的指令   117

4.9  不完整流水线数据通路图   121

5章特殊寄存器访问类指令剖析          123

5.1  OR1200中的特殊寄存器      123

5.2  0组特殊寄存器        125

5.3  特殊寄存器访问类指令说明        127

5.4  分析用例        128

5.5  l.mfspr指令分析   130

5.5.1  l.mfspr取指阶段的组合逻辑输出    131

5.5.2  l.mfspr取指阶段的时序逻辑输出    132

5.5.3  l.mfspr译码阶段的组合逻辑输出    132

5.5.4  l.mfspr译码阶段的时序逻辑输出    133

5.5.5  l.mfspr执行阶段第1个时钟周期的组合逻辑输出         135

5.5.6  l.mfspr执行阶段第1个时钟周期的时序逻辑输出         138

5.5.7  l.mfspr执行阶段第2个时钟周期的组合逻辑输出         141

5.5.8  l.mfspr执行阶段第2个时钟周期的时序逻辑输出         144

5.5.9  l.mfspr指令分析小结         144

5.6  l.mtspr指令分析   145

5.6.1  l.mtspr执行阶段的组合逻辑输出    147

5.6.2  l.mtspr执行阶段的时序逻辑输出    148

5.7  SPRS分析       148

5.8  完善流水线数据通路图        155

6章转移类指令剖析     157

6.1  延迟槽   157

6.2  转移类指令说明   158

6.3  分析用例        159

6.4  l.bf指令分析 161

6.4.1  l.bf取指阶段的组合逻辑输出  162

6.4.2  l.bf取指阶段的时序逻辑输出  163

6.4.3  l.bf译码阶段的组合逻辑输出  164

6.4.4  l.bf译码阶段的时序逻辑输出  166

6.4.5  l.bf执行阶段第1个时钟周期的组合逻辑输出       169

6.4.6  l.bf执行阶段第2个时钟周期的组合逻辑输出       173

6.4.7  l.bf执行阶段第2个时钟周期的时序逻辑输出       174

6.4.8  l.bf指令分析小结       175

6.5  l.jalr指令分析        176

6.5.1  l.jalr取指阶段的组合逻辑输出         177

6.5.2  l.jalr取指阶段的时序逻辑输出         177

6.5.3  l.jalr译码阶段的组合逻辑输出         177

6.5.4  l.jalr译码阶段的时序逻辑输出         179

6.5.5  l.jalr执行阶段第1个时钟周期的组合逻辑输出     180

6.5.6  l.jalr执行阶段第2个时钟周期的组合逻辑输出     181

6.5.7  l.jalr执行阶段第2个时钟周期的时序逻辑输出     182

6.6  转移类指令对处理器效率的影响        182

6.7  继续完善流水线数据通路图        183

7章异常处理类指令剖析     185

7.1  OR1200中的异常分类 185

7.2  OR1200中的异常处理过程 185

7.3  异常处理类指令说明   187

7.4  分析用例        187

7.5  EXCEPTION模块的作用         190

7.6  l.sys指令分析        195

7.6.1  l.sys取指阶段的组合逻辑输出         196

7.6.2  l.sys取指阶段的时序逻辑输出         196

7.6.3  l.sys译码阶段的组合逻辑输出         197

7.6.4  l.sys译码阶段的时序逻辑输出         198

7.6.5  l.sys执行阶段的组合逻辑输出         199

7.6.6  l.sys执行阶段的时序逻辑输出         201

7.6.7  异常处理过程——FLU1状态   207

7.6.8  异常处理过程——FLU2状态   211

7.6.9  异常处理过程——FLU3状态   212

7.6.10  异常处理过程——FLU4状态 212

7.6.11  异常处理过程——FLU5状态 213

7.6.12  l.sys分析小结  214

7.7  l.trap指令分析      215

7.7.1  l.trap译码阶段的时序逻辑输出       216

7.7.2  l.trap执行阶段的组合逻辑输出       216

7.7.3  l.trap执行阶段的时序逻辑输出       216

7.7.4  异常处理过程——FLU1状态   217

7.7.5  异常处理过程——FLU2状态   217

7.7.6  l.trap分析小结  218

7.8  l.rfe指令分析         218

7.8.1  l.rfe取指阶段的组合逻辑输出          219

7.8.2  l.rfe取指阶段的时序逻辑输出          219

7.8.3  l.rfe译码阶段的组合逻辑输出          220

7.8.4  l.rfe译码阶段的时序逻辑输出          221

7.8.5  l.rfe执行阶段第1个时钟周期的组合逻辑输出     223

7.8.6  l.rfe执行阶段第2个时钟周期的组合逻辑输出     224

7.8.7  l.rfe执行阶段第2个时钟周期的时序逻辑输出     225

7.9  继续完善流水线数据通路图        226

8章乘法、除法类指令剖析          228

8.1  串行乘法与并行乘法   228

8.1.1  串行乘法    228

8.1.2  并行乘法    229

8.2  串行除法与并行除法   230

8.2.1  串行除法    230

8.2.2  并行除法    231

8.3  乘法、除法类指令说明        232

8.4  OR1200中关于乘法、除法的一些配置      234

8.5  分析用例        234

8.6  l.mul指令分析(串行乘法)       238

8.6.1  l.mul取指阶段的组合逻辑输出        239

8.6.2  l.mul取指阶段的时序逻辑输出        240

8.6.3  l.mul译码阶段的组合逻辑输出        240

8.6.4  l.mul译码阶段的时序逻辑输出        241

8.6.5  l.mul执行阶段第1个时钟周期的组合逻辑输出    243

8.6.6  l.mul执行阶段第1个时钟周期的时序逻辑输出    245

8.6.7  l.mul执行阶段第2个时钟周期的组合逻辑输出    247

8.6.8  l.mul执行阶段第2个时钟周期的时序逻辑输出    249

8.6.9  l.mul执行阶段第33个时钟周期的时序逻辑输出 250

8.6.10  l.mul执行阶段第34个时钟周期的组合逻辑输出        250

8.6.11  l.mul执行阶段第34个时钟周期的时序逻辑输出        252

8.6.12  l.mul执行阶段第35个时钟周期的时序逻辑输出        252

8.6.13  l.mul分析小结 252

8.7  l.mul指令分析(并行乘法)       253

8.7.1  l.mul执行阶段第1个时钟周期的组合逻辑输出(并行乘法)    253

8.7.2  l.mul执行阶段第1个时钟周期的时序逻辑输出(并行乘法)    254

8.7.3  l.mul执行阶段第2个时钟周期的组合逻辑输出(并行乘法)    255

8.7.4  l.mul执行阶段第2个时钟周期的时序逻辑输出(并行乘法)    256

8.7.5  l.mul执行阶段第3个时钟周期的时序逻辑输出(并行乘法)    256

8.7.6  l.mul执行阶段第4个时钟周期的组合逻辑输出(并行乘法)    256

8.7.7  l.mul执行阶段第4个时钟周期的时序逻辑输出(并行乘法)    257

8.7.8  l.mul执行阶段第5个时钟周期的时序逻辑输出(并行乘法)    257

8.7.9  l.mul分析小结(并行乘法)   257

8.8  l.mac指令分析      257

8.8.1  l.mac执行阶段第1个时钟周期的组合逻辑输出   259

8.8.2  l.mac执行阶段第1个时钟周期的时序逻辑输出   260

8.8.3  l.mac执行阶段第2个时钟周期的组合逻辑输出   261

8.8.4  l.mac执行阶段第2个时钟周期的时序逻辑输出   261

8.8.5  l.mac执行阶段第1个时钟周期的时序逻辑输出      262

8.8.6  l.mac执行阶段第2个时钟周期的时序逻辑输出      262

8.8.7  l.mac指令分析小结  263

8.9  l.div指令分析(串行除法)         263

8.10  继续完善流水线数据通路图      266

9章加载存储类指令剖析     268

9.1  加载存储类指令说明   268

9.2  分析用例        270

9.3  l.sb指令分析          274

9.3.1  l.sb取指阶段的组合逻辑输出 276

9.3.2  l.sb取指阶段的时序逻辑输出 276

9.3.3  l.sb译码阶段的组合逻辑输出 276

9.3.4  l.sb译码阶段的时序逻辑输出 278

9.3.5  l.sb执行阶段第1个时钟周期的组合逻辑输出      280

9.3.6  l.sb执行阶段第2个时钟周期的组合逻辑输出      286

9.3.7  l.sb执行阶段第2个时钟周期的时序逻辑输出      287

9.3.8  l.sb指令分析小结      287

9.4  l.lbs指令分析         288

9.4.1  l.lbs执行阶段第1个时钟周期的组合逻辑输出     290

9.4.2  l.lbs执行阶段第2个时钟周期的组合逻辑输出     291

9.4.3  l.lbs执行阶段第2个时钟周期的时序逻辑输出     294

9.4.4  l.lbs指令分析小结     294

9.5  对齐异常处理流程        295

9.6  三级流水线还是五级流水线        297

9.7  完整的流水线数据通路图   298

10  MMU剖析     301

10.1  MMU的作用及工作过程   301

10.2  TLB的作用及工作过程       303

10.3  IMMU分析  305

10.3.1  IMMU结构       305

10.3.2  IMMU中的特殊寄存器   307

10.3.3  OR1200中关于IMMU的一些配置         308

10.3.4  ITLB代码分析  309

10.3.5  IMMU使用情景       313

10.3.6  分析用例  313

10.3.7  IMMU使用情景之一——指令取指阶段ITLB命中且无页错误情况下IMMU工作分析 324

10.3.8  IMMU使用情景之二——指令取指阶段ITLB未命中情况下IMMU工作分析 329

10.3.9  IMMU使用情景之三——指令取指阶段ITLB命中但有页错误情况下IMMU工作分析 333

10.3.10  IMMU使用情景之四——l.mtspr执行阶段IMMU工作分析    333

10.3.11  IMMU使用情景之五——l.mfspr执行阶段IMMU工作分析    335

10.3.12  IMMU分析小结     336

10.4  DMMU分析         336

10.4.1  DTLB结构图     337

10.4.2  DMMU中的特殊寄存器 337

10.4.3  DMMU使用情景      338

11章基于OR1200的一个简单SOPC   340

11.1  简单SOPC的结构        340

11.2  Wishbone总线互联矩阵WB_CONMAX     341

11.3  挂接在互联矩阵WB_CONMAX下的RAM模块        342

11.4  SOPC顶层文件    344

11.5  ModelSim新建工程min_or1200_sopc       346

11.6  示例程序      348

12  ICache剖析   350

12.1  Cache基本知识  350

12.1.1  Cache的作用   350

12.1.2  Cache的结构与工作过程        351

12.2  OR1200Cache简介         352

12.3  ICache结构 353

12.3.1  ICache模块与其余模块的连接关系       353

12.3.2  ICache中数据部分  354

12.3.3  ICache中控制部分  356

12.3.4  ICache数据部分与控制部分的对外接口       357

12.4  ICache中的特殊寄存器      358

12.5  ICache使用情景 358

12.6  分析用例      359

12.7  ICache使用情景之一——l.mtspr执行阶段ICache工作分析         364

12.7.1  执行阶段的组合逻辑输出       364

12.7.2  执行阶段的时序逻辑输出       364

12.8  ICache使用情景之二——指令取指阶段ICache失靶情况下ICache工作分析    365

12.8.1  1个时钟周期的组合逻辑输出  365

12.8.2  1个时钟周期的时序逻辑输出  368

12.8.3  2个时钟周期的组合逻辑输出  370

12.8.4  2个时钟周期的时序逻辑输出  371

12.8.5  n个时钟周期的组合逻辑输出  373

12.8.6  n个时钟周期的时序逻辑输出  373

12.8.7  n+1个时钟周期的组合逻辑输出       375

12.8.8  2n个时钟周期的组合逻辑输出         376

12.8.9  2n个时钟周期的时序逻辑输出         377

12.8.10  2n+1个时钟周期的组合逻辑输出  378

12.8.11  3n个时钟周期的组合逻辑输出       379

12.8.12  3n个时钟周期的时序逻辑输出       379

12.8.13  3n+1个时钟周期的组合逻辑输出  379

12.8.14  4n个时钟周期的组合逻辑输出       379

12.8.15  4n个时钟周期的时序逻辑输出       380

12.8.16  4n+1个时钟周期的组合逻辑输出  380

12.8.17  ICache失靶时工作过程小结         381

12.9  ICache使用情景之三——指令取指阶段ICache命中情况下ICache工作分析    381

12.9.1  1个时钟周期的组合逻辑输出  382

12.9.2  1个时钟周期的时序逻辑输出  382

12.9.3  2个时钟周期的组合逻辑输出  383

12.10  ICache使用情景之四——指令取指阶段内存页禁止缓存情况下ICache工作分析  384

12.10.1  1个时钟周期的组合逻辑输出         384

12.10.2  1个时钟周期的时序逻辑输出         385

12.10.3  2个时钟周期的组合逻辑输出         385

12.10.4  2个时钟周期的时序逻辑输出         386

12.10.5  3个时钟周期的组合逻辑输出         386

12.10.6  n个时钟周期的组合逻辑输出         387

12.10.7  n个时钟周期的时序逻辑输出         387

13  DCache剖析 389

13.1  DCache的特别之处    389

13.2  DCache结构         390

13.2.1  DCache模块与其余模块的连接关系     391

13.2.2  DCache中数据部分          392

13.2.3  DCache中控制部分          394

13.2.4  DCache数据部分与控制部分的对外接口     395

13.3  DCache中的特殊寄存器    396

13.4  DCache使用情景         397

13.5  分析用例      398

13.5.1  修改已有的简单SOPC     398

13.5.2  分析用例  398

13.6  DMMU地址翻译         405

13.7  DCache使用情景之一——存储指令执行阶段DCache失靶 405

13.7.1  通写法下DCache工作过程分析    406

13.7.2  回写法下DCache工作过程分析    413

13.8  DCache使用情景之二——存储指令执行阶段DCache命中 422

13.8.1  通写法下DCache工作过程分析    422

13.8.2  回写法下DCache工作过程分析    424

13.9  DCache使用情景之三——l.mtspr指令写DCache中特殊寄存器 427

13.9.1  通写法策略下指令l.mtsprDCBIRDCBFR的过程分析428

13.9.2  回写法策略下指令l.mtsprDCBIR的过程分析         429

13.9.3  回写法策略下指令l.mtsprDCBWR的过程分析       431

13.9.4  回写法策略下指令l.mtsprDCBFR的过程分析         437

13.10  DCache分析小结      438

14  Store BufferSB)剖析        440

14.1  SB模块的作用与工作过程         440

14.2  SB模块的结构     441

14.2.1  SB模块的对外连接关系 441

14.2.2  SB模块内部结构      442

14.2.3  SB模块有关的宏定义      442

14.3  示例程序      442

14.4  SB模块代码分析         444

14.4.1  FIFO分析  444

14.4.2  SB分析      447

15  WB_BIU剖析         450

15.1  WB_BIU模块的对外连接关系   450

15.2  Wishbone寄存反馈总线周期     451

15.3  WB_BIU代码分析       454

15.3.1  WB_BIU中的有限状态机        455

15.3.2  总线时钟与处理器时钟不同时的处理代码  462

16  PMTTPIC剖析        466

16.1  电源管理模块PM分析       466

16.1.1  PM介绍    466

16.1.2  PM模块的对外连接关系、特殊寄存器及相关宏定义         466

16.1.3  PM代码分析    468

16.2  计时器单元TT分析    471

16.2.1  TT介绍      471

16.2.2  TT的对外连接关系及相关宏定义 472

16.2.3  TT代码分析      473

16.2.4  计时器中断响应过程       475

16.3  可编程中断控制器PIC分析       477

16.3.1  PIC介绍    477

16.3.2  PIC的对外连接关系及相关宏定义         478

16.3.3  PIC代码分析    479

作者简介

雷思磊,理工男,好静,倡导低碳生活,常以环保人士自居,喜读书,自幼笃信“博观而约取 厚积而薄发”,是故,所读书籍甚为驳杂,年近而立,尚不确定根本兴趣目标,一日,驻足书架之前,细览所读书籍,惊觉随岁月增长,关注点依次从应用编程、操作系统、驱动设计转移至处理器结构,此一脉络极其清晰,遂如醍醐灌顶,幡然醒悟,原来余根本兴趣目标在“底层”,在于从根本上理解世界之运行,遂耗数年时间钻研处理器工作原理,乃有些微收获,拙作当为数年辛苦之小结,然学无止境,科技发展亦日新月异,唯有持续钻研,方能大成,屈子曰:路漫漫其修远兮,吾将上下而求索。此言甚是,余定谨记而遵行之。

前言

人看见我

就是看见了父

 

我就是道路、真理、生命

若不借着我

没有人能到父那里去

          ——《约翰福音》

 

现在看来,用上述语句形容1971年诞生的世界上第一款商用微处理器Intel4004,似乎也是恰当的。从“人类历史上最具革新性的产品之一”(戈登•摩尔语)的4004诞生至今,已过了四十多年,期间,处理器的应用范围不断扩展,渗透到各行各业,浸入人们的日常生活,极大地影响了第五次信息革命的进程。对其自身而言既有“变”也有“不变”,“变”的是处理器的性能,“不变”的是其高高在上的形象,处理器设计制造作为国家信息产业的基石之一,一直都是高科技行业,轻易无法涉足。幸运的是,随着可编程硬件技术的持续发展,如今可以通过编写代码实现处理器,出现了软核处理器,它的出现使得寻常人士也能有机会了解处理器内部实现原理,甚至参与处理器的设计、研发。

软核处理器有很多,比如:NiosIIOR1200LEON3OpenSparc等,本书选择OR1200作为分析对象,深度剖析其内部实现,理解其设计思路、工作过程。选择OR1200的原因有两个:一方面OR1200是开源的;另一方面,笔者在学习处理器的过程中有一个体会,那就是“一通百通、融会贯通、取长补短、创新提高”。我们的最终目的是了解处理器的实现原理,不必过多纠结于选择哪个、不选哪个,处理器设计中很多问题都是相通的,深入学习一款处理器,明白其架构,在这个过程中可以找到学习处理器的途径,找到适合自己的学习方法,有了方法,再学其他的处理器时就会顺利很多,所以称为“一通百通”。

分析第一个处理器内部实现时,是抱着学习的态度,学第二个、第三个就应该在头脑中形成一种比较的意识,比较这几种处理器实现相同功能的部分为何会有不同的设计方法,哪一种性能更好,这就称为“融会贯通”。通过前面的两步,我们已经如牛顿那般站在巨人的肩膀上了,学习了各种处理器的设计原理,明白了各自优劣,在自己设计处理器的时候就可以“取长补短”。此外,通过独立思考,或者由于不同设计思路的碰撞,可能会产生新的、更好的设计灵感,是谓“创新提高”。

 

写作目的

寻找一个确定性的世界

我们信科学

我们信逻辑

我们信因果

我们是理工男

科学的、逻辑的、因果的,最终表达的是确定性。恐惧源于未知,人类科技活动的目的就是为了探索未知,消除未知带来的不确定性,努力使得一切都可预测,都是确定性的。当然,现实生活中各种因素使我们个体所接触的物质世界显得如此的不确定。从大的方面讲,对于个人命运、社会变革这些宏大的命题,我们都显得渺小和茫然;从小的方面讲,即使坐在对面的是自己的意中人,因为不知她(他)的心思,从而产生一种对确定性丧失的焦虑和痛苦。这时我们迫切地需要一种满足,一种对确定性存在的满足,进而是一种理想的满足。笔者觉得这也是剖析处理器的魅力,处理器的世界就是一个确定性的世界,从加电的那一刻开始,读指令、执行、再读指令、再执行,一切都是设计好的,精准、无误、确定。即使出现意外,也可以得到一个确定的意外原因。

     对好奇心的满足

人类进步的推动力量有两个:懒惰、好奇。这不是玩笑,而是很严肃的话题,关于第一点,大家想想洗衣机、电视、麦当劳就很容易理解了。第二点更好理解,看看婴儿打量这个世界的眼神就知道好奇心是人类与生俱来的。为什么太阳东升西落?为什么苹果会掉下来?为什么烧开的水会把壶盖顶起来?……每一个为什么的提出及解答,都使得人类前进了一步。在IT行业,人们会问,为什么可以通过计算机一边听音乐、一边上网、一边看电影?

不同的人会有不同的答案

A君:啊,这还有为什么啊,计算机本来就可以这样啊,不这样还能叫计算机!

B君:这是多线程的效果。

C君:这是操作系统调度的原因。

D君:这是由于处理器在每个时钟中断都会进入时钟中断处理例程,在其中切换进程。

A君的回答天真无邪,基本可以断定这位同学不是IT行业的。其他三位同学的答案一个比一个接近根本、接近底层、接近硬件,但好奇的我们不禁要多问一句:时钟中断是如何发生的?解答这个问题就需要深入处理器内部实现了。

     对现有教科书的不满

国内大多数计算机方面的教科书,常给人这么一个体会:理论太多、实践太少。操作系统、计算机体系结构、计算机组成原理等课程无不如此。过多的理论、过少的实践,给学生带来的问题是:容易纸上谈兵;对具体知识的印象不深刻;知其然,不知其所以然。因此,笔者想结合一款实用的处理器,深度剖析其内部设计实现,作为现有教科书的一个补充。

 

适合谁读

     适合对确定性世界狂热追求者阅读。通过阅读本书,读者将发现,虽然处理器内部十分复杂,但是从加电的那一刻开始,它就按照预定程序运行,每一刻都是可预测的,都是确定性的。

     适合对处理器内部实现有着强烈好奇心的朋友阅读。本书通过对OR1200处理器的剖析,将使读者全方位了解32RISC处理器设计。

     适合不满足于教科书的同学阅读。本书可以作为实践参考书,帮助读者理解书本上抽象的概念,同时培养读者的动手能力。

     适合正在从事软核处理器开发、设计的人员阅读。本书将提供一些经验、一些好的方法,帮助读者做到事半功倍。

     适合正在从事嵌入式开发的人员阅读,本书对处理器的一些介绍,有助于嵌入式开发。

 

内容安排

全书共16章,每章的主要内容如下。

1章简单介绍了目前主要的开源软核处理器,并做了对比,然后重点介绍了OR1200的架构、代码组织,并对本书的分析方法进行了说明。

2章带领读者一步一步建立起实验平台、准备好实验工具,有了平台和工具的帮助,可以更加方便地认识和理解OR1200的内部细节。

3章剖析了OR1200中的QMEM模块,这是一个快速存储器模块,可以在一个时钟周期内读取其中的指令,同时分析了复位结束后,指令的读取过程,给出了一个理想的取指模型。

49章分别剖析了OR1200中数据处理类指令、特殊寄存器访问类指令、转移类指令、异常处理类指令、乘法/除法类指令和加载存储类指令的处理过程。这些指令也是OR1200支持的全部指令,分析了这些指令的处理过程,也就明白了OR1200处理器中CPU模块的内部结构、工作原理。在第9章最后给出一个完整的OR1200流水线数据通路图,而49章中,对每一类指令处理过程的分析都采用相同的方法:首先写一段简单的测试代码,测试代码包含我们即将分析的指令类别中的全部或部分指令,然后使用OR1KSim模拟器查看执行情况,接下来对这一类指令中有代表性的若干条指令采用流水线驱动的方法进行分析,即分析指令处理过程中,在流水线各个阶段引起的信号变化,以及通过这些变化的信号是如何逐步实现指令目标的。

10章剖析了MMU模块,采用的是情景分析法,即通过分析使用该模块的各种情景及各种情景下模块的工作过程,达到了解该模块原理的目的。

11章建立了一个基于OR1200的简单SOPC,后续章节将借助该SOPC分析OR1200中的指令Cache、数据Cache等模块。

1213章分别剖析了OR1200中的指令Cache、数据Cache,采用的是情景分析法。

14章剖析了Store Buffer模块,采用的是直接分析源代码的方式。

15章剖析了OR1200处理器与外部Wishbone总线连接的接口模块WB_BIU,采用的是情景分析法。

16章剖析了电源管理模块、计时器单元、可编程中断控制器,由于比较简单,采用的都是直接分析源代码的方式。

 

写作原则

     不唯上、不唯下,只唯实

要保持质疑,哪怕对方是所谓的权威。本书对OR1200的一些介绍可能与OR1200手册及其他学者的观点不同,比如:本书认为OR1200是三级流水线。OR1200手册上认为是五级流水线,笔者在源代码的剖析中发现这种说法并不充分,在第9章给出理由以佐证笔者的观点,整本书也是按照三级流水线进行分析的。同时,本书指出了源代码中的一些错误,有些可能是笔误,有些就是设计缺陷(如:QMEM的设计)。

     像剥洋葱似的,一步步接近核心

OR1200是一个系统、一个整体,各个模块之间的联系很紧密,并且相互影响。最开始,只给出了一种理想情况,也是OR1200大部分时候的运行情况,后面分析到某些指令、某些场景的时候,会具体分析这些指令、场景是如何影响这个理想情况的。比如:第3章给出了一个理想的取指过程,在后续章节,当分析系统调用指令l.sys的时候,就会介绍l.sys对这个取指过程的影响;分析转移指令l.bf的时候,就会介绍l.bf对这个取指过程的影响;分析特殊寄存器读指令l.mfspr的时候,就会介绍l.mfspr对这个取指过程的影响。通过这样一步一步的探索,由简到繁,由不求甚解到全面了解,最后揭示得出结论,而不是直接给出结论,再分析得出这个结论的理由。笔者认为前者更符合我们认识事物的规律。

     依据不同的分析对象使用合适的分析方法

在内容安排中可以发现,本书针对不同的模块,依据具体情况,采用了不同的分析方法,主要有:流水线驱动的分析方法、场景分析法和直接分析源代码的方法。

     适量重复

在分析过程中,为了直观,本书大量采用了表格化的显示方法,表格中列出了当前阶段的主要变化信号,包括信号的作用说明,其中有很多信号可能在之前的表格中出现过,但笔者仍然在新的表格中重复给出这个信号的作用说明。这样适量的重复,增强了各章之间的独立性,尤其是第59章,便于读者选择性阅读。

     感性与理性结合

除了对代码进行分析,本书还使用ModelSim进行仿真,通过ModelSim仿真结果可以直观地观察到任意时刻处理器内部任一信号的状态,既验证了代码分析的正确性,也使读者加深了印象。

 

本书特色

1)国内第一本采用指令驱动分析法、流水线驱动分析法和情景分析法对一款成熟的32位软核处理器进行分析的图书,通过对流水线、MMUCache等处理器内部重要功能单元的分析,有效消除了处理器的神秘感。

2)国内第一本采用实验的方法对处理器设计中的一些重要思想进行阐释的书,如:通过实验,给出了存储操作在Cache存在、Cache不存在时的区别,从而使读者可以更加深刻地体会到Cache的作用。

3)国内第一本对OR1200处理器进行全面、详细介绍的图书。

阅读方法

针对不同的阅读需要,可以有粗读、精读两种阅读方法。

     粗读

该方法适合希望快速理解处理器内部工作原理的读者使用,这些读者可能更关心处理器在流水线每个阶段的主要工作,而不关心这个工作是如何实现的。因此,本书在流水线每一个阶段分析结束的时候,都会给出一个表格,列出本阶段变化信号,其中重要的变化信号都使用“加粗斜体”来强调,这些重要变化信号的作用就反映了处理器在本阶段的主要工作,读者只需关注每个阶段分析结束时的表格即可,从而达到快速理解处理器内部工作原理之目的。

     精读

该方法适合不仅希望知道处理器在流水线每个阶段的主要工作是什么,而且希望知道这个工作是如何实现的读者使用。这种方法当然比较辛苦,也比较耗时,然而读书无捷径,任何知识的获取都是要下一番苦功夫的。

引用余秋雨先生的话与读者共勉:

阅读的最大理由是想摆脱平庸

早一天就多一份人生的精彩

迟一天就多一天平庸的困扰

 

致谢

OR1200的诸位作者Damjan LampretJulius Baxter等致敬,正是由于你们的辛苦工作和无私奉献,为我们打开了一扇窗,有机会进入另一个世界。

笔者第一次与博文视点合作,博文视点干练、敏捷的工作作风给笔者留下了深刻的印象,在此特别感谢孙学瑛老师,正是由于孙老师的出谋划策、辛苦工作才使得本书能够及时发行。

感谢酒泉卫星发射中心通信总站的各位领导、同事,虽然我们处在戈壁滩上,自然条件恶劣,但是我们共同从事的是一项伟大的事业,这一事业将我们紧紧联系在一起。若干年后,当我老得哪儿也去不了的时候,这必定将成为一段珍贵的回忆。

感谢我的好友张世伟老师在百忙之中阅读了本书,并提出许多宝贵的修改意见。

最后,感谢我的爸爸、妈妈、姐姐、姐夫,以及可爱的外甥女,任何成绩的取得都离不开家人的付出,谢谢你们!

笔者学识有限,尽管已通读数次,但仍不能保证书中无一纰漏,欢迎各位读者朋友对本书提出批评、建议,可以通过邮箱leishangwen@163.com与笔者交流。

posted @ 2013-07-02 10:59  博文视点(北京)官方博客  阅读(701)  评论(0编辑  收藏  举报