黄仁勋:新的 H200 芯片我就做了两件事,就让你们疯狂
黄仁勋:新的 H200 芯片我就做了两件事,就让你们疯狂
事实上当英伟达在 11 月 13 日宣布推出 H200 张量核心 GPU 的时候并没有让人感到很意外。
毕竟在 8 月 30 日,英伟达就发布了旗下 GH200 Grace Hopper 将要搭载 HBM3e 的消息,目的就是为了下一个张量核心的 GPU 产品在性能有着绝对的优势。但是当黄仁勋站在台上,大声念着屏幕上 H200 的详细参数时,除了夸张,就只剩下夸张。
简单过一下参数,H200 的显存是 141GB,带宽是每秒 4.8TB。因为此次推出的是 SXM 版本,也就是带一个高带宽插座版本。所以对比 H100 的 SXM 版本,显存从 80GB 提升 76%,带宽从每秒 3.35TB 提升了 43%。但这不是最主要的,无论是 H100 还是 H200,它都是专注于人工智能复杂计算的,所以在业务方面,Llama2 700 亿参数的模型推理速度提高了 90%,GPT-3 1750 亿参数的推理速度提高了 60%。
这就让人不禁好奇,因为从浮点计算能力来说,那肯定是数字越大越厉害。但是从面板来看,同样为 SXM 版本的 H100 和 H200,无论是 FP64 还是其他精度,两者皆是完全相同的。要知道 H100 的单 PCIe 版本整个浮点精度都要比 SXM 版本低,因此它的带宽只有每秒 2TB,上文提到 H100 的 SXM 可是有每秒 3.35TB,浮点精度之间的差距会带来性能差异,那精度相同的两张卡,咋就也产生差异了?
左为 H200,右为 H100 内功叫做 HBM3e
这就好像武侠里面那老头,看起来手无缚鸡之力,一出手直接能打翻成年壮汉,这便是 " 内力 "。H200 这次采用的是和 H100 相同的 hopper 架构,最大的区别是搭载了上文已经提到过的 HBM3e。先拆分一下这几个英文字母,HBM 全称为高带宽内存,是一种利用三维同步动态随机存取技术(SDRAM)构建的内存接口,指的是利用垂直概念来扩展内存同时大幅度增加堆栈内处理速度。说白了就是过去内存里面大家都是一字长蛇阵排开,第一个处理完业务才能让下一个进来,没利用到空间,只是利用到平面。而到了 HBM 这里,设立了多窗口服务,只不过是垂直于地面建立的,排队速度更快。
另一方面,动态随机访问存储器,也就是常说的 DRAM 和 SDRAM 相比,SDRAM 是在 DRAM 的架构基础上增加同步和双区域(Dual Bank)的功能,使得微处理器能与 SDRAM 的时钟同步,所以 SDRAM 执行命令和传输资料时相较于 DRAM 可以节省更多时间。排队窗口增加了,排队速度也加快了,因此整体效率自然而然升高了。最后到了 3e,3 就是第三代架构,e 就是第三代架构的威力加强版,和游戏里 DLC 差不多一个概念。
英伟达 H100 采用的是 SK 海力士在 2022 年 6 月生产的 HBM3(PCIe 版 H100 用得是 HBM2e,这里补充说明一下),这款内存产品堆栈内存带宽是每秒 819GB。HBM3e,则是对 HBM3 在同一架构下,对用料、逻辑、算法的升级,内存带宽足足提升了 25%,来到每秒 1TB。那么回到一开始提出的问题,Llama2 模型的运行大抵都遵守每 10 亿参数耗费 3 到 5GB 内存的原则,不过这个是会随版本更新、算法优化而变少的,毕竟开发者也为了防止内存溢出,进而发生不可预估的错误。等于说是,内存越大运行效率越快。
不过这才提升了 25% 啊!别急,英伟达的狠活还在后面。都说内练一口气,可别忘了,还要外练筋骨皮。H200 和 H100 都是采用 Hopper 架构这个不假,然而英伟达为前者其进行了 " 武装 " —— TensorRT-LLM。英伟达 TensorRT-LLM 是由 TensorRT 深度学习编译器组成,包括优化的内核、预处理和后处理步骤以及多 GPU/ 多节点通信原语。
外功叫做 TensorRT-LLM
TensorRT-LLM 的工作原理类似于 " 高斯求和 " 的故事,别的小朋友还在算等差数列依次相加的时候,高斯直接掏出一个公式很快算出了结果。TensorRT-LLM 就相当于是这么一个公式,以软件优化的方式帮助 GPU 快速解决复杂计算。以 H100 为例,使用 TensorRT-LLM 后的 H100,在对一些媒体网站进行文章摘要时的工作效率,比使用前快出整整 1 倍。而在 700 亿参数的 Llama2 上,前者比后者快 77%。这个东西英伟达没敢在 H100 上大肆宣扬,直至今年 8 月时才拿出来大晒。
事实上英伟达耍了一个花招,在官网对比上,H200 SXM 对比的是没有使用 TensorRT-LLM 的 H100 SXM,当然这是后话,毕竟本身 TensorRT-LLM 也不是为 H100 准备的。综上,内功上英伟达有了 HBM3e,外功上有了 TensorRT-LLM,因此在没有计算精度变化的前提下,才能在性能上高出上代产品那么多。
2023 年年初的时候,英伟达收盘在 140 多块左右,发布完了 H200,截止至写稿,收盘在 489 块,距离年初涨了 230%。行了,老黄这回算彻底疯狂了,我要是他估计我比他还狂呢。可我说停停,今年 6 月的时候一位英伟达一直以来的死对头,黄仁勋大舅罗伯沐的孙女,也就是黄仁勋的表外甥女苏姿丰站了出来。她拿出了一块 AMD 用来挑战 H200 地位的 GPU —— MI300X。
苏姿丰与 MI300X
别看 MI300X 依然使用 HBM3 内存,但是 AMD 来了一招 " 加量不加价 ",MI300X 的内存达到了 191GB,比 H200 还足足高了 35%。191GB 放在 GPU 里是个怎么回事?H100 有一个版本叫做 H100 NVL,这个版本非常简单粗暴,它是用两个 PCIe 版本的 H100 直接焊在一起,产生 1+1>2 的效果,这也才让内存来到 188GB,MI300X 单单一块就是 191GB。然而大也有大的不好,MI300X 额定功率是 750W,比 H200 多了 50W。功率和内存不一样,是反着来的,它是越小越好,越低的额定功率代表设备的维护成本越低,越耐用。一般来说,人工智能实验室不会只使用一块 GPU 产品,他们大多都是复数购买,每块 MI300X 都比 H200 多 50W 额定功率的话,最后很可能聚沙成塔,导致失去竞争力。
对于英伟达来说还有一个头疼的问题,中国几家互联网巨头一直是 A100 和 H100 的忠实客户,不过美国随后很快就禁止了向中国销售这两块 GPU 产品。雪上加霜的是,随着美国在 2023 年 10 月发布的禁令,A100 和 H100 的中国定制版 A800 和 H800,也要在 11 月 17 日以后禁止向中国销售了。从财报上来看,英伟达数据中心大约 25% 的收入是来自于中国,H200 不出意外的话应该很快就会被列为禁止向中国出售的产品之一。
标签: