语言推论时间减至 1.2 毫秒!NVIDIA 全新 AI 软件实现更强搜索引擎



为使开发人员能打造更高效能的搜索引擎、广告建议与聊天机器人,NVIDIA 近日宣布推出第八代人工智能软件 TensorRT 8,其特色在于能让语言查询的推论时间减半,只需要 1.2 毫秒就能在 BERT-Large 上达到破纪录的语言应用速度,而 BERT-Large 是全世界最被广泛使用的 Transformer 模型之一。

NVIDIA 开发人员计划事业部副总裁 Greg Estes 表示,AI 模型正以指数级的速度变得越来越复杂,而全球各地对于使用 AI 的即时应用需求也随之高涨。这让企业迫切地部署最新的推论解决方案。最新版本的 TensorRT 导入全新的功能,可以让企业把对话式 AI 应用交付给客户,达到更快的反应速度。

TensorRT 8 只需要 1.2 毫秒就能在 BERT-Large 上达到破纪录的语言应用速度,企业以往只能缩小模型的大小,但也因此造成较低的精准度;透过TensorRT 8,企业可以把模型的大小扩增两倍或三倍,大幅提升精准度。

另外,TensorRT 8 还透过另外两个关键功能达成 AI 推论的突破,分别是稀疏性(Sparsity)和量化感知训练。所谓的稀疏性,是 NVIDIA Ampere 架构 GPU 中用以提升效率的效能技术,可以让开发人员借由减少运算作业以加速神经网络。

至于量化感知训练,则让开发人员可以在不牺牲精准度的情况下,运用已训练好的模型和 INT8 的精度运行推论,这让他们在 Tensor 核心上进行高效率推论时,可以大幅减少运算与储存的时间。

(首图来源:NVIDIA)

2021-07-22 05:53:00
标签:   资讯头条 kotoo科技资讯 kotoo科技 kotoo科技资讯头条 科技资讯头条 KOTOO商业产经 新闻网 科技新闻网 科技新闻 Kotoo科技新闻网 Kotoo Kotoo科技新闻网 科技新闻 科技新闻网 新闻网 KOTOO商业产经 科技资讯头条 kotoo科技资讯头条 kotoo科技 资讯头条 Kotoo 科技新闻 科技新闻网 新闻网 KOTOO商业产经 科技资讯头条 kotoo科技资讯头条 kotoo科技 kotoo科技资讯 资讯头条
返回顶部
跳到底部

Copyright 2011-2024 南京追名网络科技有限公司 苏ICP备2023031119号-6 乌徒帮 All Rights Reserved Powered by Z-BlogPHP Theme By open开发

请先 登录 再评论,若不是会员请先 注册