直击GTC：1万亿美元GPU、为龙虾做“CUDA”老黄就指着米兰体育- 米兰体育官方网站- APP下载你烧token了

milanguanwang

米兰官网

米兰体育(ML SPORTS)官方网站[永久网址:hash.cyou]米兰集团旗下体育APP全方面涵盖米兰体育、米兰百家乐、米兰电竞、米兰真人、米兰棋牌,米兰体育,米兰体育官网,米兰体育app,米兰体育网页版,等热门游戏场馆。米兰为千万会员提供最优质的服务，是最受用户信赖的在线投注平台，玩法多, 存款提款快。即刻访问米兰体育网页版或下载米兰体育APP，尽享极致体验。

米兰官网分类

当前位置 : 首页 > 米兰官网 > 米兰体育官网

直击GTC：1万亿美元GPU、为龙虾做“CUDA”老黄就指着米兰体育- 米兰体育官方网站- APP下载你烧token了｜亮马桥小纪严选

时间：2026-03-19 11:45:18

　　米兰体育,米兰体育官方网站,米兰体育APP下载

直击GTC：1万亿美元GPU、为龙虾做“CUDA”老黄就指着米兰体育- 米兰体育官方网站- 米兰体育APP下载你烧token了｜亮马桥小纪严选

　　上一代Blackwell Ultra已经实现了对比Hopper 50倍的吞吐效率提升，而Vera Rubin + Groq在此基础上又把前沿推到了新的区间，这套系统由七颗芯片组成。核心Rubin GPU采用台积电3nm工艺，双芯片封装，336B晶体管，配备288GB HBM4内存和22TB/s带宽，NVFP4推理性能达到50 PFLOPs，比上一代Blackwell提升5倍，训练性能35 PFLOPs，提升3.5倍。配套的Vera CPU是88核定制Arm架构（代号Olympus），176线程，全球首款在数据中心采用LPDDR5X的CPU，专门为Agent推理场景下的高单线程性能和数据处理做了优化。黄仁勋说这颗CPU独立卖“肯定会成为数十亿美元的业务”。

　　为什么需要Groq？黄仁勋在台上讲得很清楚，GPU擅长高吞吐的并行计算，做prefill和attention很强，但在超高速token生成这个区间会力不从心。他的原线 tokens/s/user的区间“runs out of steam”（跑不动了）。而Groq的LPU是一种完全不同的处理器，确定性数据流架构，芯片上全是SRAM，没有运行时动态调度，编译器在编译阶段就把每个时钟周期的计算和数据搬运全部排好了。这种架构天然适合低延迟的decode和token生成。

　　问题在于SRAM虽快但容量极小。单颗Groq 3 LPU只有500MB SRAM，而Rubin GPU是288GB HBM4，差了500多倍，根本存不下万亿参数的模型。英伟达的解法是用一套叫Dynamo的软件把推理过程拆成两半，Rubin负责prefill和attention，处理上下文需要大量算力和大容量内存；Groq负责feed-forward部分的decode和token生成，需要极低延迟和极高带宽。两者通过以太网紧耦合，延迟减半。