H100推理性能最高提升8倍,英伟达发布TensorRT-LLM模型
2023-09-10 12:33:23 来源:IT之家 阅读量:18407
,英伟达今天宣布推出名为 TensorRT-LLM,是一个深度优化的开源库,能够在 Hopper 等 AI GPU 上加速所有大语音模型的推理性能。
英伟达目前已经和开源社区合作,利用 SmoothQuant、FlashAttention 和 fMHA 等尖端技术,实现 AI 内核来优化其 GPU,可以加速 GPT-3,Llama Falcom(180 B)和 Bloom 模型。
TensorRT-LLM 的亮点在于引入了名为 In-Flight batching 的调度方案,允许工作独立于其他任务进入和退出 GPU。
该方案允许同一 GPU 在处理大型计算密集型请求时,动态处理多个较小的查询,提高 GPU 的处理性能,可以让 H100 的吞吐量加快 2 倍。
在性能测试中,英伟达以 A100 为基础,对比了 H100 以及启用 TensorRT-LLM 的 H100,在 GPT-J 6B 推理中,H100 推理性能比 A100 提升 4 倍,而启用 TensorRT-LLM 的 H100 性能是 A100 的 8 倍。
在 Llama 2 中,H100 推理性能是 A100 的 2.6 倍;而启用 TensorRT-LLM 的 H100 性能是 A100 的 4.6 倍。
IT之家在此附上报告原文,感兴趣的用户可以深入阅读。
广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
作者:叶子琪
作者:周嘉宝尽管上半年本土疫情的反复让零售市场承压,但中国这片消费热土仍被所有人寄予厚望。7月25日,第二届中国国际消费品博览会在海南海口拉开帷幕。时代财经发现,上半年零售市场的低迷情绪并没有蔓延至这场规格颇高的展会中。作为此次展会主战场,...
作者:子墨
兔年第一个工作日,刷屏的除了有“开工大吉”,还有政府派发的“大红包”。1月28日,全省高质量发展大会在广州召开。紧随其后,当天下午,广州召开全市高质量发展大会。会上,广州市商务局局长洪谦透露一个重磅信息——广州将2023年定为“消费提振年”...
作者:张璠
摘要:正如电商概念的完善和发展经历了一个过程一样,新零售的发展同样要经历一个从萌芽到成熟的过程。从这个逻辑来看,当前出现的无人货架困境是新零售概念发展成熟的过程当中必然要经历的一个阶段。图片来源:视觉中国从某种程度上来讲,无人货架打了新零售...
作者:苏婉蓉
中新经纬客户端3月13日电(贺陈慧)积极探索并购机会的华润啤酒,正在加快对啤酒高端市场的布局。3月9日,因传华润啤酒欲收购喜力中国业务,华润啤酒发布价格和成交量异常波动的公告,公告中提到,公司及公司控股股东经常探索和进行有关潜在交易的商业和...