Thread Level Parallelism¶

约 1616 个字 25 张图片预计阅读时间 5 分钟

Outline

高僧预测

重点在缓存一致性，细节来讲在监听协议和 MSI 协议。存储器一致性不重要。

MIMD, UMA and NUMACache CoherenceSnooping and MSI

drawing

Flynn 分类法

Flynn

1. 多处理器体系结构¶

由于利用指令级并行的收益越来越少，单处理器的性能增长逐渐放缓，在新的时代背景下，多处理器在从低端到高端的各个领域都扮演了重要的角色。本章主要研究线程级并行的利用。

线程级并行和指令集并行的重要区别是：线程级并行由软件系统或者程序员在较高层级上确认，并行执行的是包含大量指令的线程。TLP 意味着需要同时执行多个独立的线程，每一个线程都具有自己的程序计数器追踪执行位置，主要通过 MIMD 利用。

MIMD 架构主要分为两大类：

Multiprocessor System/多处理器系统，其基于共享地址空间：
- 整个系统只存在一个地址空间，所有的处理器都共享这个地址空间；
- 但是只有一个地址空间并不意味着只有一个物理内存，实际上可以通过一块物理共享的内存实现，也可以通过分布式的内存实现。
Multicomputer System/多计算机系统，其基于消息传递/Message Passing：
- 每一个处理器都有自己的局部内存/Local Memory 或者叫私有内存/Private Memory，其只可以被这个处理器访问，不能被别的处理器直接访问；
- 因此，处理器之间的通信必须通过显式地发送和接收消息来完成。

Shared Memory System

根据所包含的处理器数量，可以将现有共享存储器的多处理器分为两类，而处理器的数量又决定了存储器的组织方式和互联策略，因此我们按照存储器的组织方式来称呼多处理器：

对称多处理器/Symmetric Multiprocessor/SMP：也称为集中式共享存储器多处理器/Centralized Shared-Memory Multiprocessor
- 核心数量较少，一般不超过 32 个，因此处理器可以共享一个集中式存储并且平等访问之，这就是对称一词的来源；
- SMP 体系结构有时也称为一致存储器访问/Uniform Memory Access/UMA 多处理器，这是因为所有处理器访问存储器的延迟都是一致的，即使存储器被分为多个组的时候也是如此；
- 某些多核处理器对最外层高速缓存的访问是非均匀的，这种结构被称为非均匀高速缓存访问/Nonuniform Cache Access/NUCA，因此即便它们拥有单一主内存，也并非真正的 SMP；
分布式共享存储器/Distributed Shared Memory/DSM 多处理器：也称为非一致存储器访问/Non-Uniform Memory Access/NUMA 多处理器
- 多处理器采用物理分布式存储器，这是为了支持更多的处理器，存储器必须分布在处理器之间，否则存储器系统就无法在不答复延长访问延迟的情况下为大量处理器提供高带宽支持；
- 之所以 DSM 多处理器也被称为 NUMA 多处理器，这是因为数据的访问时间取决于数据在存储器中的位置，显然，访问本地内存比访问远程内存要快；
- 缺点是 DSM 让在处理之间传输数据的过程变得更加复杂了，需要软件开发人员编写额外的代码来处理数据传输。