1.2 毫秒!Nvidia TensorRT 8 运行 BERT-Large 推理创纪录



自今年 5 月 TensorRT 8-EA 版(Early Access,尝鲜版)发表后,Nvidia 终于在 20 日发表 TensorRT 8 正式版。

支援Nvidia GPU平台的深度学习推理框架,TensorRT 8正式版与以往版本相比,能在1.2毫秒内运行全球广为采用的基于transforemer模型之一BERT-Large,即将语言查询推理时间缩短至上一版一半,创下最新纪录,为搜索引擎、广告推荐和聊天机器人的AI模型提供支援。

Nvidia声称,TensorRT8不仅针对transformer突破性最佳化,还新增其他两项关键特性,突破AI推理。

推理时间缩短至1.2毫秒,速度提升1倍

“AI模型以指数级的速度增长,很多公司不得不缩减模型大小以追求回应速度。Nvidia 2016年推出的TensorRT可帮助这些企业扩大规模,提升精确度。”AI软件部的产品管理总监Kari Briski回顾TensorRT推出背景时说。

TensorRT是Nvidia自家深度学习推理框架,模型推理过程可将Pytorch、TensorFlow等其他框架训练好的模型转化为TensorRT格式,再使用TensorRT推理引擎运行,提升模型在GPU的运行速度。支援更多模型和进一步缩短推理时间,提高推理速度是广大AI软件开发者对TensorRT升级的普遍期望。

2019年,黄仁勋在GTC China发表TensorRT 7。相比只支援30多种模型的TensorRT 5,TensorRT 7支援各种类型RNN、Transformer和CNN,支援多达1千多种不同类型的计算变换和优化,还能让推理时间缩短至0.3秒,为此黄仁勋称为“最大飞跃”。

这次更新的TensorRT 8版本,虽然升级“飞跃”程度比不上从5.0版本到7.0版本的升级,但也有一定程度更新。Nvidia宣称,TensorRT 8各项最佳化为语言带来创纪录速度,能在1.2毫秒内运行全球广为采用的基于transforemer模型之一BERT-Large,帮助企业将模型扩大1倍或2倍,提高精确度。

落实到应用,这种推理速度能让对话式AI更智慧,互动应用程序性能也能提升。

新增两项核心技术,是推理速度提升的关键

凭借TensorRT提升模型在Nvidia GPU的运行速度,主要得益于TensorRT一系列最佳化:

  • 权重与启动精确度校准:透过将模型量化为INT8更提升输送量,同时保持高精确度,力求精确度和输送量的最大平衡。
  • 层与张量融合:透过融合内核节点,最佳化GPU视讯内存和带宽使用。
  • 内核自动调整:基于目标GPU选择最佳的数据层和算法。
  • 动态张量显存:更大限度减少视讯内存占用,为张量高效重复利用内存。
  • 多流执行:并行处理多个输入流的可扩展设计。

简单而言,就是在力求以低混合精确度提升输送量的同时,减少计算和内存存取,合并网络层。

TensorRT 8版本,Nvidia又新加入两个关键特性,以突破AI推理性能。一是稀疏性,TensorRT 8精确度推理时,降低深度学习模型部分权重,减少模型所需带宽和内存,提升效率时使开发者减少计算操作并加速神经网络。此技术能帮助NVIDIA Ampere架构GPU性能提升。

二是量化感知训练。开发者使用训练好的模型,以INT8精确度推理,且不会造成精确度损失,大大减少计算和储存成本,在Tensor Core核心上高效推理。

TensorRT诞生第五年,下载次数近250万次

推理模型的速度优势让TensorRT广受欢迎。五年来有医疗、汽车、金融和零售等各领域27,500家企业,超过25万名开发者下载使用TensorRT,累计次数近250万次。

GE医疗是TensorRT消费者之一,使用TensorRT助力加速早期检测疾病的关键工具:超音波计算机视觉创新,使临床医生透过职能医疗解决方案提供最高品质的护理。

GE医疗心血管超声首席工程师Erik Steen表示:“临床医生需要花费宝贵时间选择和评估超音波图。Vivid Patient Care Elevated Release专案研发过程,希望透过Vivid E95扫描器执行自动心脏视图检测。心脏检视算法将选择合适的图像分析心壁运动。TensorRT凭著即时推理能力,提高视图检测算法性能,同时缩短研发产品上市时间。”

开源AI技术的领导者Hugging Face也与Nvidia密切合作,产品总监Jeff Boudier表示,透过TensorRT 8,Hugging Face在BERT实现1毫秒推理延迟,十分期待今年稍晚为客户提供新性能。

TensorRT 8已全面上市,免费提供Nvidia计划开发者成员,用户能从TensoRT GitHub库取得最新版插件、解析器和样本开放原始程式码。

(本文由 雷锋网 授权转载;首图来源:科技新报)

2021-07-24 06:58:00
标签:   资讯头条 kotoo科技资讯 kotoo科技 kotoo科技资讯头条 科技资讯头条 KOTOO商业产经 新闻网 科技新闻网 科技新闻 Kotoo科技新闻网 Kotoo Kotoo科技新闻网 科技新闻网 新闻网 KOTOO商业产经 科技资讯头条 kotoo科技资讯头条 kotoo科技 kotoo科技资讯 资讯头条 Kotoo Kotoo科技新闻网 科技新闻 科技新闻网 KOTOO商业产经 科技资讯头条 kotoo科技资讯头条 kotoo科技 kotoo科技资讯 资讯头条
返回顶部
跳到底部

Copyright 2011-2024 南京追名网络科技有限公司 苏ICP备2023031119号-6 乌徒帮 All Rights Reserved Powered by Z-BlogPHP Theme By open开发

请先 登录 再评论,若不是会员请先 注册