【免费】并行计算技术与软件应用探讨_并行计算原理与实践资源-CSDN下载

需积分: 0 38 浏览量更新于2022-08-03 收藏 6.11MB PDF 举报

并行计算是现代高性能计算的重要组成部分，特别是在处理大量数据和复杂计算任务时。本文主要讨论了多线程架构和GPU及协处理器在并行计算中的应用。多线程架构是解决现代CPU中内存访问速度慢于计算速度问题的一种策略。由于内存的长延迟和有限带宽，通过多线程，处理器可以在一个线程等待内存数据时切换到另一个线程，从而有效地利用计算资源。多线程架构如Multi-Threaded Architecture (MTA)允许多个线程并行工作，减少了上下文切换的开销，使得处理器能够高效地处理多个任务。例如，Cray XMT系统就采用了这种架构。 GPU（Graphics Processing Unit）在并行计算中的角色越来越重要，它不仅是图形处理的专用芯片，还能作为协处理器执行数据并行计算。GPU的设计通常包含大量的SIMD（Single Instruction Multiple Data）单元，适合执行大量重复的操作，如矩阵运算和并行处理像素。随着技术的发展，GPU已被广泛应用于科学计算、深度学习等领域，如天河一号超级计算机就利用了NVidia GPU来实现高性能计算。此外，协处理器是另一种增强计算能力的方式，它们可以是专门针对特定任务优化的硬件单元，如数字协处理器、DSP（Digital Signal Processor）或FPGA（Field-Programmable Gate Array）。协处理器可以通过无缝集成或者需要显式调用来编程，如IBM Roadrunner超级计算机中的Cell协处理器，它在并行计算中扮演了关键角色。然而，与协处理器的交互会增加编程复杂性，因为需要管理主处理器和协处理器之间的数据交换和工作流程。在编程方面，对于像CUDA这样的平台，程序员需要编写专门针对GPU的代码，并进行单独编译，这要求程序员具备对硬件特性和并行编程模型的深入理解。对于天河-1A这样的系统，GPU代码必须独立于CPU代码，这增加了系统的可编程性挑战。总结起来，多线程架构通过在处理器内部执行多个线程，有效地利用了计算资源，而GPU和协处理器则提供了额外的并行计算能力，特别是在数据密集型任务中。随着硬件技术的进步，这些并行计算方法将继续推动高性能计算领域的发展，解决更复杂的计算问题，并提高计算效率。

并⾏计算（三）

翻⾃：《Introduction to High Performance Scientific Computing》-Victor Eijkhout

李岳昆( [email protected] )、蒋志政( [email protected] )译

知乎专栏：⾼性能计算翻译计划

Github专栏： https://github.com/realYurkOfGitHub/translation-Introduction-to-HPC

# 多线程架构

当代CPU架构模式很⼤程度上取决于：机器从内存中获取数据要远⽐处理这些数据要慢得

多。因此，由更快更⼩的存储器组成的层次结构试图通过靠近处理单元以缓解内存的长延迟

和低带宽。此外，在处理单元中进⾏指令级并⾏也有助于隐藏延迟、充分利⽤带宽。

然⽽，寻找指令级并⾏属于编译器的⼯作范畴，该处可执⾏空间有限；另⼀⽅⾯，科学计算

中的代码往往更加适合数据并⾏，这对于编译器来说较为困难但对程序员说却显⽽易见。能

否让程序员明确地指出这种并⾏性？并让处理器使⽤它？

前⾯我们看到SIMD架构可以以明确的数据并⾏⽅式进⾏编程。如果我们有⼤量的数据并⾏，

但没有那么多的处理单元该怎么办？在这种情况下，我们可以把指令并⾏变成线程并⾏，让

多个线程在每个处理单元上执⾏。每当⼀个线程因为未完成的内存请求⽽停滞不前时，处理

器可以切换到另⼀个线程，因为所有必要的输⼊都是可⽤的。这就是所谓的「多线程」

（multi-threading）。虽然这听起来像是⼀种防⽌处理器等待内存的⽅法，但也可以被看作是

⼀种保持内存最⼤限度被占⽤的⽅法。

练习 2.41 把内存的长延迟和有限的带宽看作是两个独⽴的问题，多线程是否同时解决了这两

个问题？

这⾥的问题是，⼤多数CPU并不擅长在线程之间快速切换。上下⽂切换（在⼀个线程和另⼀

个线程之间切换）需要⼤量的周期，与等待主内存的数据相当。在所谓的「多线程架构」

（Multi-Threaded Architecture，MTA）中，上下⽂切换是⾮常有效的，有时只需要⼀个周期，

这使得⼀个处理器可以同时在许多线程上⼯作。

多线程的概念在Tera Computer MTA机器中得到了探索，该机器演变成了⽬前的Cray XMT9。

MTA的另⼀个例⼦是GPU，其中处理器作为SIMD单元⼯作，同时本⾝也是多线程的。

# GPU与协处理器

当前，CPU在处理各种计算中都参与了⼀定程度的作⽤，也就是说，如果限制处理器处理的

功能，有可能提⾼其专注效率，或降低其功耗。因此我们试图在主机进程中加⼊⼀个辅助处

理器如，英特尔的8086芯⽚，为第⼀代的IBM PC提供动⼒；可以添加⼀个数字协处理器，即

80287，这种处理器在超越函数⽅⾯⾮常有效，⽽且它还采⽤了SIMD技术；使⽤独⽴的图形

功能也很流⾏，导致了X86处理器的SSE指令，以及独⽴的GPU单元被连接到PCI-X总线。

进⼀步的例⼦是使⽤数字信号处理（DSP）指令的协处理器，以及可以重新配置以适应特定需

求的FPGA板。早期的阵列处理器，如ICL DAP也是协处理器。

在本节中，我们将简要介绍这⼀理念的⼀些现代化⾝，特别是GPU。

追溯历史

协处理器可以⽤两种不同的⽅式进⾏编程：有时它是⽆缝集成的，某些指令在协处理器中⾃

动执⾏，⽽不是在 "主 "处理器上执⾏。另⼀⽅⾯，也有可能需要明确调⽤协处理器功能，甚

⾄有可能将协处理器功能与主机功能重叠。从效率的⾓度看，后⼀种情况可能听起来很有吸

引⼒，但它提出了⼀个严重的编程问题。程序员现在需要确定两个⼯作流：⼀个⽤于主机处

理器，⼀个⽤于协处理器。

采⽤协处理器的并⾏机器有：

英特尔Paragon（1993）每个节点有两个处理器，⼀个⽤于通信，另⼀个⽤于计算。这些

处理器实际上是相同的，即英特尔i860英特尔i860处理器。在后来的修订中，有可能将数

据和函数指针传递给通信处理器。

洛斯阿拉莫斯的IBM Roadrunner是第⼀台达到PetaFlop的机器。(葡萄计算机更早达到了这

⼀点，但那是⼀台⽤于分⼦动⼒学计算的特殊⽤途机器）。它通过使⽤Cell协处理器达到

了这个速度。顺便说⼀下，Cell处理器实质上是索尼Playstation3的引擎，再次显⽰了超级

计算机的商品化。

中国的 "天河⼀号 "在2010年登上了Top500榜单，由于使⽤了NVidia GPU，达到了约

2.5PetaFlop。

天河⼆号和TACC Stampede集群使⽤英特尔Xeon Phi协处理器。

Roadrunner和Tianhe-1A是协处理器的例⼦，它们⾮常强⼤，需要独⽴于主机CPU进⾏明确编

程。例如，在天河-1A的GPU上运⾏的代码是⽤CUDA编程并单独编译的。

在这两种情况下，由于协处理器不能直接通过⽹络交流，可编程性问题进⼀步加剧。要把数

据从⼀个协处理器发送到另⼀个协处理器，必须先传到⼀个主处理器，再从那⾥通过⽹络传

到另⼀个主处理器，然后才移到⽬标协处理器。

瓶颈问题

协处理器通常有⾃⼰的内存，英特尔Xeon Phi可以独⽴运⾏程序，但更多时候存在如何访问主

处理器内存的问题。⼀个流⾏的解决⽅案是通过PCI总线连接协处理器。这样访问主机内存的

速度⽐主机处理器的直接连接要慢。例如，Intel Xeon Phi 的带宽为512位宽，每秒5.5GT（我

们将在第⼆部分讨论这个 "GT"），⽽它与主机内存的连接为5.0GT/s，但只有16位宽。

GT测量我们习惯于看到以千兆位/秒为单位的带宽。对于PCI总线，⼈们经常看到GT测量。

这代表了千兆传输，它衡量了总线在零和⼀之间改变状态的速度。通常情况下，每个状态转

换都对应⼀个⽐特，但总线必须提供⾃⼰的时钟信息，如果你发送⼀个相同的⽐特流，时钟

会被混淆。因此，为了防⽌这种情况，通常将每8位编码为10位。然⽽，这意味着有效带宽⽐

理论数字要低，在这种情况下是4/5的系数。

由于制造商喜欢讨论事情的积极⼀⾯，因此他们报告的数字会更⾼。

GPU计算

剩余24页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

资源推荐

资源评论

透明流动虚无

粉丝: 41

并行计算（三）1

最新资源

并行计算（三）1

并行计算

并行计算机

NUMECA并行计算教程

[并行计算——结构·算法·编程].陈国良.文字版

并行计算--并行计算

中科大-陈国良-并行计算（PPT课件全）.zip

天津大学并行计算

并行计算教程

并行计算用

并行计算方法

并行计算综述

并行计算实验指导1

并行计算——结构·算法·编程习题答案

并行计算期末考试复习

AUTODYN并行计算手册

高等教育出版社 陈国良著 并行计算课件

并行计算导论（陈国良电子版）

并行计算示例

三进程流水线的并行计算

parrel并行计算导论1

parallel并行计算

第01-03章：并行计算

并行计算与MPI.pdf

并行计算原理 并行计算的思想

清华大学计算机系并行计算课件

ANSYS系列并行计算

并行计算导论.pdf

使用hMailServer搭建邮件服务器，自建邮局群发邮件

我有一个300人的数据表，里面有3列，分别记录id name password我想要写一个T-sql的递归，当id号为1的代码运行完后给2运行，以此类推将表格中所有人运行完成

最新资源

高等教育出版社陈国良著并行计算课件

并行计算原理并行计算的思想