Naplespu微体系结构内多个插件融合分析（草稿）

Naplespu微体系结构内多个插件融合分析（草稿）

http://www.naplespu.com/doc/index.php?title=Detailed_studies

介绍

打算展示替换链是如何相对于L2缓存发生的，观察目录控制器是如何演变以管理此类情况的发生的。主要目的是测试发生L2替换的所有情况，如图所示：

目录控制器中的内存

为了更好地理解替换机制的工作原理，有必要首先评估目录控制器管理的缓存的结构。以下描述表示用于所有实验的配置。如图所示，缓存由四种方式和64组组成，每种方式包含一个标签和一个数据（64位）。

管理地址为32位，其组织方式如图所示：

然后，每个控制器目录可以处理有限数量的地址，例如，图块0可以处理从0x00000000到0x3ffffff的地址，图块1可以处理从0x4000000到0x7ffffff的地址，以此类推。实验中使用了四块分块进行处理。

更换工具链

为了进行替换，需要填写与给定集合相关的所有四种方式：在同一集合中插入新条目时，实现替换。为了简单起见，需要编写代码，以便在使用的内核中直接在Assembly中运行，从而更好地控制执行的操作和使用的内存地址。为了确定正在进行替换，有必要观察do_replacement信号。此信号仅在以下情况下为高。

do_replacement = dc2_message_valid && ((allocate_cache | | update_cache) && !deallocate_cache) && !is_replacement && !dc2_message_cache_hit && dc2_message_cache_valid;

因此，如果已经处理了替换以外的请求，并且没有导致缓存行被释放，那么如果缓存中没有命中，那么将需要执行替换。可以注意到，如果没有缓存释放，则会触发替换操作，这可能违反直觉。事实上，替换操作的管理方式是直接用要插入的新行替换条目LRU，而不会使执行替换的缓存行无效，将无效操作（针对缓存控制器）委托给稍后的阶段。在do_replacement信号断言后，通过dc3替换入队信号，触发相对队列中替换请求的入队，在该队列中还插入要执行替换的缓存行的内容：

dc3_replacement_enqueue = dc2_message_valid && do_replacement;

assign dc3_replacement_request.source = dc2_message_source,

dc3_replacement_request.memory_address.tag = dc2_message_cache_tag,

dc3_replacement_request.memory_address.index = dc2_message_address.index,

dc3_replacement_request.memory_address.offset = 0,

dc3_replacement_request.data = dc2_message_cache_data,

dc3_replacement_request.state = dc2_message_cache_state,

dc3_replacement_request.分享s_list = dc2_message_cache_分享s_list,

dc3_replacement_request.owner = dc2_message_cache_owner;

注意，dc2消息address.index包含从第2阶段获取的LRU索引。

如目录控制器文档中所述，第1阶段包含一个固定优先级的调度器，如果可以发出替换请求的条件得到验证，则该调度器涉及替换请求的最高优先级处理。除了通常的信号外，阶段1还向阶段2发送以下信号：

dc1_replacement_state <= output_replacement_state;

dc1_replacement_分享s_list <= output_replacement_分享s_list;

dc1_replacement_owner <= output_replacement_owner;

这些信号从阶段2转发到阶段3。在实际处理请求的状态3中，根据所在的状态，按照协议ROM中的定义进行替换。

更换一条线路

为了测试M状态下块的替换，并评估其文档中描述的主要信号，就目录控制器而言，构建了以下内核：

if(tile_id==0){

asm(

"moveih s20, 0x0000"

"moveil s20, 0x0000"

"store32 s21, (s20)"

"moveil s20, 0x1000"

"store32 s21, (s20)"

"moveil s20, 0x2000"

"store32 s21, (s20)"

);

}else if(tile_id==1){

asm(

"moveih s20, 0x0000"

"moveil s20, 0x4000"

"store32 s21, (s20)"

"moveil s20, 0x8000"

"store32 s21, (s20)"

);

}

在这种情况下，图块0运行三个存储，图块1运行两个存储。为了区分不同的请求，请观察图中的dc1消息有效信号，当固定优先级调度器从相应的队列中选择一个请求时，该信号被断言。

从仿真中可以看出，目录控制器按以下顺序处理消息：

1.分块1存储0x00004000

2.分块0存储在0x00000000

3.分块1存储0x00008000

4.分块0存储在0x00001000

5.分块0存储在0x00002000

这些请求是以属于同一组的方式提出的，以便触发替换。

根据请求，缓存分配如下：

为了获得上述信息，评估了dc3_update_cache_way信号，该信号允许在L2中写入条目。此信号直接取决于selected_way，如果是hit，则包含hit_index，否则包含lru_way（参阅与伪lru相关的部分）。

指定选定way = hit ? hit idx : lru_way;

或者，可以观察dc1_message_cache_state信号是如何演变的。详细看看在一个简单请求的情况下，会发生什么：

缓存是通过dc3_update_cache_state信号完成的。从下图中，可以看到如上所述，条目是如何以方式0分配的。

在第五次存储时，L2缓存已满，替换机制开始。为了理解它的功能，可以从理论上观察哪些信息应该交换，然后获得实际反馈：

从下图可以观察到，请求被执行，缓存行被插入，而不是lru-way信号指示的条目；因此，可以检测到高do_replacement信号，从而也检测到do_replacement_enqueue信号），这涉及在替换队列中插入请求。

此时，通过观察各阶段信号的递增顺序，检查管道内的更换操作是如何进行的。

阶段1：在图中，可以看到条件can_issue_replacement_request得到满足，因此请求从其队列中取出。此请求的类型为“c”，即替换。

此时发送的消息取决于协议ROM，可以从以下代码摘录中看到：

{STATE_S, REPLACEMENT, 1'b?, 1'b?} : begin // Replacement

// Send BACKINV To 分享s

dpr_output.message_forwarded_send = 1'b1;

dpr_output.message_forwarded_type = MESSAGE_BACKINV;

dpr_output.message_forwarded_to_分享s = 1'b1;

// Send WB To Memory Controller

dpr_output.message_response_send = 1'b1;

dpr_output.message_response_type = MESSAGE_WB;

dpr_output.message_response_has_data = 1'b1;

dpr_output.message_response_to_memory = 1'b1;

// Next State N

dpr_output.next_state = STATE_N;

end

首先，需要向分享发送BACK_INV消息，向内存控制器发送WB消息：

=======================

Directory Controller - [Time 12810] [TILE 0] - Message Sent

Forwarded Destinations: 0010

Source: 0

Address: 00004000

Requestor: DCACHE

Packet Type: BACK_INV

Uncoherent: 0

Response Destinations: 1000

Source: 0

From DC: 1

Address: 00004000

Requestor: DCACHE

Packet Type: WB

Data: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Uncoherent: 0

分享 Count: 1

=======================

Cache Controller - [Time 12890] [TILE 1] [Core 0]

Source: 0

Address: 00004000

Requestor: DCACHE

Packet Type: BACK_INV

Uncoherent: 0

与前面的示例不同，可以从状态S直接转换到状态N。

案例2：多个共享者

为了测试用单个分享替换S状态的块，并评估文档中描述的主要信号，就目录控制器而言，构建了以下内核：

if(tile_id==0){

asm( "moveih s20, 0x0000"

"moveil s20, 0x4000"

"load32 s22, (s20)"

"moveil s20, 0x0000"

"store32 s21, (s20)"

"moveil s20, 0x1000"

"store32 s21, (s20)"

"moveil s20, 0x2000"

"store32 s21, (s20)"

);

}else if(tile_id==1){

asm( "moveih s20, 0x0000"

"moveil s20, 0x4000"

"load32 s22, (s20)"

"moveil s20, 0x8000"

"store32 s21, (s20)"

);

}

在这种情况下，图块0执行加载和三个存储，图块1执行加载和一个存储。

为了区分不同的请求，观察dc2_message_valid信号，当固定优先级调度器从相应的队列中选择一个请求时，该信号会被断言。

从模拟中可以看出，目录控制器按以下顺序处理消息：

1.将分块1加载到地址0x00004000

2.将分块0加载到地址0x00004000

3.分块1存储0x00008000

4.分块0存储在0x00000000

5.分块0存储在0x00001000

6.分块0存储在0x00002000

随后在缓存中进行分配：

这些请求是以属于同一组的方式提出的，以便触发替换。

从理论角度来看，观察针对不同共享者的BACK_INV消息很有趣：

可以通过提高细节级别来发现，参考消息日志，由文件display_coherence.txt表示：

=======================

Directory Controller - [Time 13980] [TILE 0] - Message Sent

Forwarded Destinations: 0011

Source: 0

Address: 00004000

Requestor: DCACHE

Packet Type: BACK_INV

Uncoherent: 0

Response Destinations: 1000

Source: 0

From DC: 1

Address: 00004000

Requestor: DCACHE

Packet Type: WB

Data: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Uncoherent: 0

分享 Count: 2

=======================

Cache Controller - [Time 14080] [TILE 1] [Core 0]

Source: 0

Address: 00004000

Requestor: DCACHE

Packet Type: BACK_INV

Uncoherent: 0

=======================

Cache Controller - [Time 15860] [TILE 0] [Core 0]

Source: 0

Address: 00004000

Requestor: DCACHE

Packet Type: BACK_INV

Uncoherent: 0

与单独分享情况的主要区别在于，需要向替换缓存行中的所有分享，发送无效消息。

替换一条线路

为了测试L2缓存状态中条目的替换，必须使用更复杂的内核，因为L1缓存大小与L2缓存大小相同，因此必须使用两个不同的目录控制器。

使用这种类型的实验，而不是增加L2缓存的大小，更具形成性，因为除了测试和理解所使用的PLRU算法外，可以观察到使用两个不同的DC来处理请求。此外，如引言中所述，有必要对所有实验保持相同的配置。

下面是使用的代码：

"moveih s20, 0x0000"

"moveil s20, 0x0000"

"store32 s21, (s20)"

"moveil s20, 0x1000"

"load32 s22, (s20)"

"moveil s20, 0x2000"

"load32 s22, (s20)"

"moveil s20, 0x4000"

"load32 s22, (s20)"

"moveih s20, 0x4000"

"moveil s20, 0x0000"

"store32 s21, (s20)"

"moveih s20, 0x0000"

"moveil s20, 0x1000"

"store32 s21, (s20)"

"moveil s20, 0x2000"

"store32 s21, (s20)"

"moveil s20, 0x4000"

"store32 s21, (s20)"

"moveil s20, 0x8000"

"store32 s21, (s20)"

由于希望完全控制收到到目录控制器的请求，因此使用了一个分块。这是因为系统使用确定性路由，并意味着请求将在发送方发送时到达目的地。

从代码中可以看到，Tile 0生成了9个请求：

1.存储在0x00000000

2.加载到地址0x00001000

3.加载到地址0x00002000

4.加载到地址0x00004000

5.存储在0x40000000

6.存储在0x00001000

7.存储在0x00002000

8.存储在0x00004000

9.存储在0x00008000

如目录控制器中的内存部分所定义的，请求5是发往图块1的目录控制器的。

前4个请求需要填充L2缓存，如下所示：

为了获得进入状态I的条目，上述缓存行的所有者缓存控制器必须替换它（L1）。对DC的额外请求将导致其中一条线路在L2级别被替换，因此为了触发整个过程，Tile 0缓存控制器将向Tile 1目录控制器发出请求（请求5）。

为了验证请求5，可以通过查看消息日志来移动到更高的抽象级别：

=======================

Cache Controller - [Time 13700] [TILE 0] [Core 0] - Message Request Sent

Directory Destinations: 1

Source: 0

Address: 40000000

Packet Type: GETM

Data: 00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000

=======================

Directory Controller - [Time 13780] [TILE 1] - Message Received

Source: 0

Address: 40000000

Packet Type: GETM

Data: 00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000

还要注意图\ref{fig:PUTM}和消息日志提取中L1替换后，Tile 0目录控制器收到的相对PUTM（类型3请求）。

=======================

Cache Controller - [Time 14470] [TILE 0] [Core 0] - Message Request Sent

Directory Destinations: 0

Source: 0

Address: 00000000

Packet Type: PUTM

Data: 44618020820180007600001411018640606403206164000060600330616000007608006820f3d00082f40000040000c04b0c2010600002e061000000xxxxxxxx

=======================

Directory Controller - [Time 14610] [TILE 0] - Message Received

Source: 0

Address: 00000000

Packet Type: PUTM

Data: 44618020820180007600001411018640606403206164000060600330616000007608006820f3d00082f40000040000c04b0c2010600002e061000000xxxxxxxx

=======================

Directory Controller - [Time 14630] [TILE 0] - Message Sent

Response Destinations: 0001

Source: 0

From DC: 1

Address: 00000000

Requestor: DCACHE

Packet Type: PUT_ACK

Data: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Uncoherent: 0

Sharer Count: 0

从下图中，可以通过信号dc1_message_cache_state（包含缓存行的状态）观察缓存的状态是如何演变的，状态3表示状态“I”：

图中表示的请求6、7、8是必要的，以便将selected_way与状态I中包含缓存行的方式相匹配，因为它不再是lru。

请求更改LRU条目的状态如下：

下图显示了一个示例，说明在请求输入状态后，状态如何从S（2）更改为M（1），从而导致lru_way信号的演变：

此时，请求9生成替换：

从理论上讲，可以观察到消息的交换（见下图），在这种情况下，这要简单得多，因为该块仅由目录控制器拥有。

在这一点上，检查更换操作是如何在管道内详细进行的，观察各阶段信号的演变情况，然后：

阶段1：在下图中，可以看到条件can_issue_replacement_request已满足，因此请求已从队列中取出。此请求的类型为“c”，即替换。

第二阶段：请求被转发到第三阶段，可以检查所选的方式在未命中的情况下，如何与lru_way完全相等，即使它不会在第三阶段使用，因为会采用请求附带的方式。

第三阶段：is_replacement信号为高，因此它实际上是一个替换。

参阅图中触发替换的请求和替换本身的详细信息：

在下图中，可以详细看到与第一阶段进入状态I相关的状态变化。

根据ROM协议的规定，它向存储器控制器生成WB：

{STATE_I, REPLACEMENT, 1'b?, 1'b?} : begin // Replacement

// Send WB To Memory Controller

dpr_output.message_response_send = 1'b1;

dpr_output.message_response_type = MESSAGE_WB;

dpr_output.message_response_has_data = 1'b1;

dpr_output.message_response_to_memory = 1'b1;

// Next State N

dpr_output.next_state = STATE_N;

end

可以通过提高细节级别来看到，参考消息日志，由文件display_coherence.txt表示：

=======================

Directory Controller - [Time 15940] [TILE 0] - Message Sent

Response Destinations: 1000

Source: 0

From DC: 1

Address: 00000000

Requestor: DCACHE

Packet Type: WB

Data: 618020820180007600001411018640606403206164000060600330616000007608006820f3d00082f40000040000c04b0c2010600002e061000000xxxxxxxx

Uncoherent: 0

Sharer Count: 0

=======================

Memory Controller - [Time 16360] [TILE 3] - Message Received

Source: 0

From DC: 1

Address: 00000000

Requestor: DCACHE

Packet Type: WB

Data: 618020820180007600001411018640606403206164000060600330616000007608006820f3d00082f40000040000c04b0c2010600002e061000000xxxxxxxx

Uncoherent: 0

Sharer Count: 0

不稳定状态下的更换

值得注意的是，不稳定的状态是无法测试的。这是由于观察了控制器目录的结构。为了处理替换，必须通过循环缓冲区将请求带入控制器，但由于缓存中只存储了稳定状态（N除外），因此无法评估稳定状态以外的状态。

参考文献链接

http://www.naplespu.com/doc/index.php?title=Detailed_studies

posted @ 2024-07-27 07:07 吴建明wujianming 阅读(27) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· NaplesPU或NPU技术开发文档合成全部（修改版）

· NaplesPU或NPU技术开发文档（草稿）

· DDCA —— 缓存一致性

· HITsz 操作系统笔记

· 剖析虚幻渲染体系（19）- 计算机硬件体系

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· .NET10 - 预览版1新功能体验（一）

历史上的今天：
2023-07-27 AI芯片算力等技术参数分析
2022-07-27 异构计算技术分析
2021-07-27 Clang：LLVM 的 C 语言家族前端
2021-07-27 OpenCL™（开放计算语言）概述

公告

昵称：吴建明wujianming
园龄： 7年5个月
粉丝： 532
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

吴建明

Naplespu微体系结构内多个插件融合分析（草稿）

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论