开yun体育网”研究东说念主员暗意-开云(中国)kaiyun网页版登录入口

(原标题:英伟达最强芯片,性能惊东说念主)
淌若您但愿不错频繁碰头,接待标星保藏哦~
开头:本体来自hpcwire,谢谢。
Nvidia 正在将其 GH200 芯片应用于欧洲超等策画机,研究东说念主员正在入辖下手研究这些系统并发布带有性能基准的研究论文。
在第一篇论文《富厚精良耦合异构系统中的数据转移:以 Grace Hopper 超等芯片为例》中,研究东说念主员对 GH200 的多样应用进行了基准测试,该芯片集成了 CPU 和 GPU。这些数字凸显了该芯片的惊东说念主速率以及 AI 和科学应用步调性能怎样从土产货化的 HBM3 和 DDR5 内存中受益。
Alps 系统的一项基准测试(仍在升级)用于测量 GH200 初始 AI 应用步调时的性能。
另一篇论文《使用百亿亿次形势模拟器擢升地球系统模子输出并从简 PB 级存储空间》测量了 Frontier 中 GH200 到 AMD MI250X 的大型集群、Leonardo 中的 Nvidia A100 以及 Summit 中的 Nvidia V100 的性能。这些系统曾位居 Top500 名次榜榜首,当今已参预前十。
GH200 将 Nvidia 独到的 72 个 ARM Neoverse V2 CPU 中枢与 132 个 GPU 流处理器成功连络起来。CPU 和 GPU 通过 NVLink-C2C 互连进行通讯,该互连以 900GB/秒的速率双向初始。它还具有 96GB 的 HBM3 并收罗了不同类型的 CPU 和 GPU 内存。
非持重 GH200 分析
研究东说念主员取得了正在升级的阿尔卑斯超等策画机中 GH200 芯片的一个分区,并在 CUDA 12.3 软件堆栈上测量了 AI 基准。阿尔卑斯超等策画机位于瑞士国度超等策画中心。
Alps 是首批使用 GH200 的超等策画机之一,其名为“preAlps”的优化子系统在 Green500 榜单上排名第五。它基于 HPE 的 Slingshot 互连,而不是 Nvidia 的独到集聚接口。
研究东说念主员测试了四核 GH200 节点。研究东说念主员暗意,和洽内存池“为推广具有大内存占用的应用步调开辟了新的可能性,这些内存占用超出了单个 GPU 或 CPU 成功可用的内存”。
每个节点有 288 个 CPU 中枢和四个 Hopper GPU。最终的四核成立总内存为 896GB,每个 Superchip 包括 96GB HBM3 和 128GB LPDDR5 内存。每个节点包含四个 GH200 Superchip,通过 HPE Slingshot 11 连络,每个节点的速率为 800 Gb/s。
研究东说念主员测量了在和洽内存池中将数据存储在 HBM3 或 LPDDR5 中时的多样读取、写入和性能方向。在初始干事负载时,数据会暂时存储在内存中,HBM3 的速率显然快于 LPDDR5。
研究东说念主员测量了基于 GEMM 算法的 AI 性能,该算法诳骗 GPU 中以 AI 为中心的 Tensor Core。
超等芯片在 HBM3 上的性能为 612 teraflops,DDR 为 59.2 teraflops。FP32 在 HBM3 上的性能为 51.9 teraflops,在 DDR5 上的性能更差,为 22.9 teraflops。在 FP64 上,HBM3 上的性能为 58.4 teraflops,在 DDR 内存上的性能为 13.2 teraflops。
使用 HBM3 内存时,LLM 推理本事也快得多。一言以蔽之,在具有 130 亿个参数的 Llama-2 模子上,100 个 token 的推理速率比 DDR 内存快四倍。使用 Llama-2 70 亿个参数模子时,它约莫快两倍。
关于不同的模子,使用不同的物理内存分派,Llama-2 LLM 100 个 token 的推理本事越短越好。(开头:参考论文)
其他报复发现:Hopper GPU 使用 DDR 时读取速率为 420.2 GB/s,写入速率为 380.1 GB/s,使用 HBM3 时读取速率为 3795.9 GB/s,写入速率为 3712.1 GB/s。
Hopper GPU 的 HBM 内存延伸为 344.2 纳秒,DDR 内存延伸为 817.8 纳秒。
研究东说念主员还对 Grace CPU 进行了读写和内存延伸测试。他们还公布了 CPU 和 GPU 的复制性能。
研究东说念主员来自苏黎世联邦理工学院和 Nvidia。
研究东说念主员考究说念:“咱们以为,尽管 Quad GH200 节点的内存系统十分复杂,但从单个互连的超等芯片的角度来看待该系统关于竣事邃密的性能至关报复。”
研究东说念主员暗意,Nvlink-C2C 互连“为开采搀杂 CPU 和 GPU 策画的异构应用步调开辟了可能性”。
与 MI250X 和 A100 的相比
研究东说念主员还在阿尔卑斯山的 GH200 集群、Frontier 的 MI250X、Leonardo 的 Nvidia A100 和 Summit 的 Nvidia V100 上初始了形势模拟器应用步调。这些芯片曾位居 Top500 名次榜前哨或前 10 名。
这两种相比并不系数是同类相比,尤其是 GH200 与 Nvidia A100 和 V100 的相比,因为它们不包括集成 CPU。
可是,搀杂精度性能数字(包括双精度和半精度测量)提供了 HPC 注释者所温雅的本体的快照,即这些系统在搀杂科学和 AI 模拟时提供更全体性能的全景视图。
数据长远,GH200 权臣改善了形势模拟应用和数据。地球模拟模子对超等策画系统条款很高,因此十分适当测量 GPU 性能。
Alps 集群领有 4,096 个 GPU,问题范围为 1040 万,最高可达每秒 3.842 亿亿次浮点运算,每个 GPU 最高可达每秒 93.8 万亿次浮点运算。
Frontier 中的 MIX250X 领有 4,096 个 GPU,问题范围为 839 万,基准测试末端为 223.7 petaflops,每个 GPU 为 54.6 teraflops。
莱昂纳多超等策画机中的 Nvidia A100 领有 4,096 个 GPU,问题范围为 839 万,基准测试速率为 243.1 petaflops,每个 GPU 为 57.2 teraflops。
Leonardo 领有 3,456 个节点,每个节点配备四块 Nvidia A100 64GB GPU,表面双精度峰值性能为 306.31 petaflops。
Summit 中的 V100 领有 6,144 个 GPU,问题范围为 629 万,总体性能为 153.6 千万亿次浮点运算,每个 GPU 的性能为 25 万亿次浮点运算。Summit 行将退役。
在四个系统的 1,024 个节点上,搀杂精度 Cholesky 的双精度/半精度形态性能末端纲要(单元:PFlop/s)。(开头:参考论文)
基准测试中使用的形势模拟器基于 35 年来 3180 亿个每小时温度数据点和 83 年前巨匠模拟的 310 亿个逐日数据点进行检察。
研究东说念主员宣称,他们的形势模拟器(行为其他系统的补充)不错从高性能系统中取得更高的性能,在 Frontier(领有 9,472 个节点)的 9,025 个节点上可提供高达 0.976 exaflops 的性能。
该模拟器还不错为与形势关联的数据密集型模拟带来资本和性能效果。其他模拟器会生成无数 PB 数据,因此存储资本腾贵,并归天了策画才气。
举例,好意思国国度大气研究中心的 CMIP6 模拟了 37,000 年的形势数据(由多样状态生成),滥用了 1.9 亿个 CPU 小时和 2PB 的后处理本事序列数据。
“NCAR 的数据处置资本每年约为每 TB 45 好意思元。这给需要 PB 级存储的神气带来了渊博的财务干事,并可能归天科学方向,”研究东说念主员暗意。
该论文的作家是 NCAR、阿卜杜拉国王科技大学 (KAUST)、圣路易斯大学和圣母大学的研究东说念主员。研究东说念主员还与 Nvidia 和田纳西大学有联系。
https://www.hpcwire.com/2024/09/04/researchers-benchmark-nvidias-gh200-supercomputing-chips/
半导体杰作公众号推选
专注半导体边界更多原创本体
关注巨匠半导体产业动向与趋势
*免责声明:本文由作家原创。著作本体系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或营救,淌若有任何异议,接待联系半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第3878本体,接待关注。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
心爱咱们的本体就点“在看”共享给小伙伴哦
热点资讯
- 开yun体育网放风筝也需时辰绷紧“安全弦”-开云(中国)kaiyun网页版登录入口
- 体育游戏app平台两名搭客在古蜀谈翠云廊内徒步-开云(中国)kaiyun网页版登录入口
- 开云体育(中国)官方网站 南非农业部发布的声明指出-开云(中国)kaiyun网页版登录入口
- 体育游戏app平台主板代号“bogota”-开云(中国)kaiyun网页版登录入口
- 欧洲杯体育这种情况并非初度出现-开云(中国)kaiyun网页版登录入口
- 体育游戏app平台时隔仅半年的技巧周意保言而有信了-开云(中国)kaiyun网页版登录入口
- 体育游戏app平台自2016年6月开站运营以来-开云(中国)kaiyun网页版登录入口
- 开云体育(中国)官方网站英镑兑好意思元站上1.30-开云(中国)kaiyun网页版登录入口
- 开云(中国)kaiyun网页版登录入口开云体育同比增长54.52%-开云(中国)kaiyun网页版登
- 开云体育(中国)官方网站大众基金3月7日净卖出204亿卢比的印度股票-开云(中国)kaiyun网页版
