世界上最快的科学机器

世界上最快的科学机器

距离世界最快超级计算机 TOP500 排名发布仅剩几周时间,本周,美国橡树岭国家实验室 (ORNL) 正式部署了 Titan,这是一台 20 千万亿次浮点运算的机器。Titan 有望击败劳伦斯利弗莫尔国家实验室的另一台能源部机器 Sequoia,让美国重回超级计算机金字塔的顶峰(Sequoia 有望位居第二),而美国过去几年一直在追赶中国和日本。

但除了吹嘘之外,Titan 的意义还不止于此。它将成为世界上速度最快的开放科学机器,为全国各地工业界、学术界和政府实验室的科学家提供时间,他们需要巨大的计算能力来理解六个核心领域的复杂数据集:气候变化、天体物理学、材料科学、生物燃料、燃烧和核能系统。至关重要的是,它结合了图形处理单元 (GPU) 和通常部署在这种超级计算机中的传统中央处理单元 (CPU) 内核。随着科学家们努力开发下一代百亿亿次级科学机器,这种 CPU 和 GPU 的成功结合可能会对超级计算的未来产生深远的影响。

“我们把全部赌注押在了这个混合计算环境上,而且我们成功了。”“Titan 将成为当今最大、速度最快的开放科学计算机,”负责为 Titan 提供 GPU 的 NVIDIA 业务部门 Tesla 的首席技术官史蒂夫·斯科特 (Steve Scott) 表示。“它可能会也可能不会超过 Sequoia。获得这些头衔固然很好,但这并不像在这台机器上进行的科学研究那么重要。”

对于开发 Titan 的合作者来说,其计算机运行速度是否比劳伦斯利弗莫尔的卫冕冠军更快只是次要考虑。Sequoia 是一款 IBM BlueGene/Q 系统,旨在为美国能源部开展机密研究,因此很快就会消失,重新回到国家机密的幕后,普通研究人员将很难接触到它。另一方面,Titan 的设计考虑到了开放研究。它已经准备好以研究科学界从未见过的水平进行计算。

Titan 每秒能够进行 20,000 万亿次计算。为了让您了解这种计算能力的发展范围和速度,请想想 2009 年 ORNL 还拥有世界上速度最快的超级计算机 Jaguar(Titan 实际上是 Jaguar 的升级版,而不是从头开始的系统,尽管 Titan 的架构非常不同)。Jaguar 是世界上速度最快的计算机之一,其系统速度为 2.3 petaflops(“flops” 代表每秒浮点运算次数,是超级计算性能的衡量标准)。短短三年内,Titan 就超越了 Jaguar 十倍。

这一飞跃很大程度上得益于对 ORNL 构建超级计算机方式的重新思考。通过构建一台十倍大、十倍多 CPU 的计算机,可以切实地将计算能力提高十倍,但这样做在很多层面上都不切实际。除了如此大型机器固有的硬件挑战之外,2.3 千万亿次浮点运算的 Jaguar 所需的能源相当于 7,000 个美国家庭的能源需求。20 千万亿次浮点运算的 Jaguar 需要大约 60 兆瓦或 60,000 个家庭的能源才能运行。要让 Titan 达到现在的水平,而又不产生巨大的能源消耗,需要大量的合作、更多地依赖一种新的硬件机制,以及相当大的勇气。

Jeffrey Nichols 表示:“2009 年,我们发明了混合多核,当时我们还没有这个词。从那时起,我们进行了三年的信念飞跃,并获得了巨大的回报,性能提高了 10 倍,效率提高了 5 倍。”

Nichols 指的是将图形芯片 GPU 集成到传统 CPU 架构中。GPU 特别适合某些任务,它们特别擅长每秒处理多个(数十甚至数百个)计算。CPU 并不特别擅长这种计算,但它们仍然非常适合传统的计算任务,例如基本代码行的运行。为了打造 Titan,ORNL 召集了超级计算机制造商 Cray 和 GPU 制造商 NVIDIA,创建了一个混合系统,其中包含 18,688 个 AMD 16 核 CPU 和 18,688 个 NVIDIA Tesla GPU,它们将协同工作,以更快、更高效的完成任务。核心研究已经完成,但挑战在于将所有部件(全部 40,000 个)排列起来并使其发挥作用。

尼科尔斯解释说,参与 Titan 开发的每个人都怀着某种程度的信心,每个人都面临着失败的可能。Cray 必须接触一种新的硬件和接口,这种硬件和接口能够在 CPU 和 GPU 之间进行通信,这是它以前从未做过的事情。NVIDIA 一直声称其 GPU 拥有重要的功能,远远超出了游戏机或 PC 的范围,现在是时候证明这种混合计算真的可以在超级计算规模上进行。而 ORNL 可能处于最危险的位置,其在全球超级计算领域的领导地位岌岌可危。如果 Titan 未能按时上线(或根本无法上线),这将是一个重大挫折,也许是多年的挫折——在快速发展的超级计算领域,这些年将很难弥补。“对于一个必须完成使命、不能承受失败的组织来说,我们把所有的钱都押在了这个混合计算环境中,我们成功了,”斯科特说。

这次冒险现在获得了丰厚的回报。Titan 无需制造一台比 Jaguar 大十倍的计算机,升级到 16 核 CPU 和性能加速 GPU 后,就可以像 Jaguar 一样装入 200 个服务器机柜中。虽然 Titan 确实比其前代产品消耗更多的电量,但只需要大约 9 兆瓦——这只是以相同速度运行的全 CPU 架构所需电量的一小部分。

这仍然是每年 1000 万美元的能源费用,但当你将它与全球当前的机器领域以及我们必须跟上竞争(特别是太平洋彼岸的某个竞争对手)的步伐进行比较时,Titan 是美国超级计算向前迈出的重要一步。美国能源部正试图创造百亿亿次超级计算能力(希望在 2020 年实现),而中国、日本、印度和欧洲及世界各地的其他国家正试图在这一领域击败美国(百亿亿次浮点性能是性能的下一个重要里程碑,相当于 1,000 千万亿次浮点)。与其中一些竞争对手不同,美国能源部正试图在紧张的财务预算和能源预算下实现这一目标。

“我们在美国和其他地方看到的不同之处在于,我们试图在 20 兆瓦的功率内实现百亿亿次级计算,”尼科尔斯说。按今天的价格计算,这大约相当于每年价值 2000 万美元的电力。中国目前没有这种财政或能源限制,因此从研发和国家安全的角度来看,泰坦在性能和效率方面的飞跃意义重大。不过,要在上述预算下达到百亿亿次级性能,需要在相同能量下将性能提高 50 倍左右。这当然令人望而生畏,但尼科尔斯和他在 ORNL、Cray、nVidia 等公司的同事已经在努力寻找解决方案。

“我们在 2009 年拥有最大的机器,并且已经在考虑 2012 年的机器,”尼科尔斯说。“而且我们已经在考虑 2016 年的机器。”

<<:  这个大型室内飓风模拟器可以拯救你的生命

>>:  见见维基百科上为飓风桑迪代言的气候变化否认者

推荐阅读

Jaunt VR 带你上山

虚拟现实充满了诱人的潜力,但也存在着先有鸡还是先有蛋的问题。用户甚至不会花钱购买廉价的头戴设备,除非...

如何重置YouTube算法

你的 YouTube 算法是否感觉有点……卡住了?我知道我有过这种感觉——获得关于我尽量少考虑的事情...

Belkin 的黑色星期五优惠为新设备提供电力和保护

每年这个时候,您都会浏览无数的电子升级和附加组件。当您以优惠的价格购买所有最新设备时(请查看我们的黑...

只有一个国家正在履行《巴黎协定》的义务

必须采取严厉措施防止气候变化产生最坏结果,这已不是什么秘密。世界各地的一些政策制定者和领导人一直在努...

购买您可能真正想要的 75 多种黑色星期五优惠

互联网上的黑色星期五就像一个雷区。那里有大量的交易几乎不会为您节省任何钱,而是试图向您出售垃圾。我们...

研究发现,每 13 个人类中就有 1 个用黑猩猩的弯曲脚走路

人类可能已经走出了树丛,但我们中的一些人仍然带着树栖祖先的痕迹四处游荡:灵活的、像黑猩猩一样的、中间...

前往火星并返回的感觉如何?

想象一下,你被困在家里一年半。你唯一能见到的人就是你的五个室友。你吃的所有饭菜都来自罐头或微波炉袋。...

如何最终抛弃 Chrome 并将所有数据和书签移动到另一个浏览器

最新版本的谷歌 Chrome 引入了新的设置,引发了隐私担忧。谷歌表示,这些工具“让你对看到的广告有...

偶像大师百万现场!评论:透彻分析该系列的吸引力和电影的刺激性

“偶像大师百万现场!”诉求与评价“偶像大师百万现场!” 《偶像大师》是万代南梦宫娱乐公司出品的《偶像...

BAE 系统公司希望利用思维机器击败干扰机

雷达曾经是一门缓慢发展的科学。电子战是一个笼统的术语,它涵盖了用于探测攻击的雷达信号、用于传达攻击即...

距离更强烈的厄尔尼诺和拉尼娜现象仅剩 8 年

地球目前正处于罕见的三重拉尼娜现象年,但气候变化也可能影响相反的天气系统厄尔尼诺。太平洋赤道附近海面...

今年的地球超载日来得早了。这是件坏事。

每个节日都有其独特的乐趣。除夕是五彩纸屑、香槟和承诺的时刻。七月四日几乎要求燃放烟花和吃一条(或十二...

Cómo enfrentar el gas lacrimógeno

点击此处阅读本文的英文版本。 Cualquiera que haya visto las notic...

Meta 正在开源其自动内容审核工具

在线内容审核很难(埃隆·马斯克目前就发现了这一点)。但 Meta(Facebook、Instagra...

北美最大的鲑鱼洄游区可能不再处于危险之中

这个故事最初刊登在《户外生活》杂志上。上周三,美国陆军工程兵团宣布拒绝 Pebble Limited...