作者:龙龙
来源:原创
时间:2026-05-24
阅读:492434 次
中国人6千年前就用上蒸锅了
NVIDIA要重塑AI:单用户速度可达2万Token每秒、能耗降1000倍_城市资讯网

ash;—作为对比,大家要知道目前很多人用在大模型AI推理速度,普遍在100Token每秒以内,甚至每秒60Token以上的速度就算高速了。 Dally表示做到这样的速度前提是用对了架构,他还以NVFP4精度做了例子对比,用这种精度做一次乘加运算需要消耗10飞焦的能量,但HBM4从外部读取
相关搜索
。首节比赛,魔术球星班凯罗发挥出色,进攻端里突外投效率在线,他出战10分钟,7中5,三分4中2,罚球4中4砍下16分1篮板1抢断。
推理对延迟的要求很高,Dally指出目前的瓶颈已经不是算力本身,瓶颈在通信开销上,NVIDIA正在研究片上通信的静态调度,将会彻底取消路由开销、排队和仲裁,通信速度接近光速本身。 目前的技术方案中,芯片从一角到另一角的延迟有几百纳秒之多,NVIDIA的技术方案可以做到30纳秒。 片外通信中,之前的方案是
当前文章:http://phna.caipuchina.net/55w/bmbd.html
发布时间:02:36:42








