软件吞噬硬件的 AI 时代,芯片跟不上算法的进化要怎么办?



身为 AI 时代的幕后英雄,芯片业正经历渐进持续的变化。

2008 年之后,深度学习算法逐渐兴起,各种神经网络渗透到手机、App 和物联网。同时摩尔定律却逐渐放缓。摩尔定律虽然叫定律,但不是物理定律或自然定律,而是半导体业发展的观察或预测,内容为:单芯片整合度(积体电路中晶体管的密度)每 2 年(也有 18 个月之说)翻倍,带来性能每 2 年提高 1 倍。

保证摩尔定律的前提,是芯片制程进步。经常能在新闻看到的 28 奈米、14 奈米、7 奈米、5 奈米,指的就是制程,数字越小制程越先进。随着制程的演进,特别进入10 奈米后,逐渐逼近物理极限,难度越发增加,芯片全流程设计成本大幅增加,每代较上一代至少增加 30%~50%。

▲ 不同制程节点的芯片设计制造成本。(Source:ICBank)

这就导致 AI 对算力需求的增长速度,远超过通用处理器算力的增长速度。据 OpenAI 测算,从 2012 年开始,全球 AI 所用的演算量呈现等比级数增长,平均每 3.4 个月便会翻 1 倍,通用处理器算力每 18 个月至 2 年才翻 1 倍。

当通用处理器算力跟不上 AI 算法发展,针对 AI 演算的专用处理器便诞生了,也就是常说的“AI 芯片”。目前 AI 芯片的技术内涵丰富,从架构创新到先进封装,再到模拟大脑,都影响 AI 芯片走向。这些变化的背后,都有共同主题:以更低功耗,产生更高性能。

更灵活

2017 年图灵奖颁给电脑架构两位先驱 David Petterson 和 John Hennessy。2018 年图灵奖演讲时,他们聚焦于架构创新主题,指出演算体系结构正迎来新的黄金 10 年。正如他们所判断,AI 芯片不断出现新架构,比如英国 Graphcore 的 IPU──迥异于 CPU 和 GPU 的 AI 专用智慧处理器,已逐渐被业界认可,并 Graphcore 也获得微软和三星的战略投资支援。

名为 CGRA 的架构在学界和工业界正受到越来越多关注。CGRA 全称 Coarse Grained Reconfigurable Array(粗颗粒可重构阵列),是“可重构计算”理念的落地产物。

据《可重构计算:软件可定义的计算引擎》一文介绍,理念最早出现在 1960 年代,由加州大学洛杉矶分校的 Estrin 提出。由于太过超前时代,直到 40 年后才获得系统性研究。加州大学柏克莱分校的 DeHon 等将可重构计算定义为具以下特征的体系结构:制造后芯片功能仍可客制,形成加速特定任务的硬件功能;演算功能的实现,主要依靠任务到芯片的空间映射。

简言之,可重构芯片强调灵活性,制造后仍可透过程式语言调整,适应新算法。形成高度对比的是 ASIC(application-specific integrated circuit,专用积体电路)。ASIC 芯片虽然性能高,却缺乏灵活性,往往是针对单一应用或算法设计,难以相容新算法。

2017 年,美国国防部高级研究计划局(Defence Advanced Research Projects Agency,DARPA)提出电子产业复兴计划(Electronics Resurgence Initiative,ERI),任务之一就是“软件定义芯片”,打造接近 ASIC 性能、同时不牺牲灵活性。

照重构时的颗粒分别,可重构芯片可分为 CGRA 和 FPGA(field-programmable gate array,现场可程式语言逻辑门阵列)。FPGA 在业界有一定规模应用,如微软将 FPGA 芯片带入大型资料中心,用于加速 Bing 搜索引擎,验证 FPGA 灵活性和算法可更新性。但 FPGA 有局限性,不仅性能和 ASIC 有较大差距,且重程式语言门槛比较高。

CGRA 由于实现原理差异,比 FPGA 能做到更底层程式的重新设计,面积效率、能量效率和重构时间都更有优势。可说 CGRA 同时整合通用处理器的灵活性和 ASIC 的高性能。

▲ 可重构计算架构与现有主流计算架构在能量效率和灵活性对比。(Source:中国科学)

随着 AI 演算逐渐从云端下放到边缘端和 IoT 设备,不仅算法多样性日益增强,芯片更零碎化,且保证低功耗的同时,也要求高性能。在这种场景下,高能效高灵活性的 CGRA 大有用武之地。

由于结构不统一、程式语言和编译工具不成熟、易用性不够友善,CGRA 未被业界广泛使用,但已可看到一些尝试。早在 2016 年,英特尔便将 CGRA 纳入 Xeon 处理器。三星也曾尝试将 CGRA 整合到 8K 电视和 Exynos 芯片。

中国清微智慧 2019 年 6 月量产全球首款 CGRA 语音芯片 TX210,同年 9 月又发表全球首款 CGRA 多模态芯片 TX510。这家公司脱胎于清华大学魏少军教授起头的可重构计算研究团队,从 2006 年起就进行相关研究。据芯东西 2020 年 11 月报导,语音芯片 TX210 已出货数百万颗,多模组芯片 TX510 在 11 月也出货 10 万颗以上,主要客户为智慧门锁、安防和脸部支付相关厂商。

先进封装上位

如开篇提到,由于制程逼近物理极限,摩尔定​​律逐渐放缓。同时 AI 算法的进步,对算力需求增长迅猛,逼迫芯片业在先进制程之外探索新方向,之一便是先进封装。

“在大数据和认知计算时代,先进封装技术正在发挥比以往更大的作用。AI 发展对高效能、高吞吐量互连的需求,正透过先进封装技术加速发展来满足。 ”世界第三大晶圆代工厂格罗方德平台首席技术专家 John Pellerin 声明表示。

先进封装是相对于传统封装的技术。封装是芯片制造的最后一步:将制作好的芯片器件放入外壳,并与外界器件相连。传统封装的封装效率低,有很大改良空间,而先进封装技术致力提高整合密度。

先进封装有很多技术分支,其中 Chiplet(小芯片/芯粒)是最近 2 年的大热门。所谓“小芯片”,是相对传统芯片制造方法而言。传统芯片制造方法,是在同一块硅芯片上,用同一种制程打造芯片。Chiplet 是将一块完整芯片的复杂功能分解,储存、计算和讯号处理等功能模组化成裸芯片(Die)。这些裸芯片可用不同制程制造,甚至可是不同公司提供。透过连接界面相接后,就形成一个 Chiplet 芯片网络。

据壁仞科技研究院唐杉分析,Chiplet 历史更久且更准确的技术词汇应该是异构整合(Heterogeneous Integration)。总体来说,此技术趋势较清晰明确,且第一阶段 Chiplet 形态技术较成熟,除了成本较高,很多高端芯片已经在用。

如 HBM 储存器成为 Chiplet 技术早期成功应用的典型代表。AMD 在 Zen2 架构芯片使用 Chiplet 思路,CPU 用的是 7 奈米制程,I/O 使用 14 奈米制程,与完全由 7 奈米打造的芯片相比成本约低 50%。英特尔也推出基于 Chiplet 技术的 Agilex FPGA 系列产品。

▲ 异构整合成示意动画。(Source:IC 智库)

不过,Chiplet 技术仍面临诸多挑战,最重要之一是互连界面标准。互连界面重要吗?如果是在大公司内部,比如英特尔或 AMD,有专用协议和封闭系统,在不同裸芯片间连接问题不大。但不同公司和系统互连,同时保证高带宽、低延迟和每比特低功耗,互连界面就非常重要了。

2017 年,DARPA 推出 CHIPS 战略计划(通用异构整合和 IP 重用战略),试图打造开放连接协议。但 DARPA 的缺点是,侧重国防相关计划,芯片数量不大,与真正商用场景有差距。因此一些芯片业公司成立组织“ODSA(开放领域特定架构)工作组”,透过制定开放的互连界面,为 Chiplet 的发展扫清障碍。

另辟蹊径

除了在现有框架内做架构和制造创新,还有研究人员试图跳出电脑现行的范纽曼型架构,开发真正模拟人脑的计算模式。

范纽曼架构,数据计算和储存分开进行。RAM 存取速度往往严重落后处理器的计算速度,造成“内存墙”问题。且传统电脑需要透过总线,连续在处理器和储存器之间更新,导致芯片大部分功耗都消耗于读写数据,不是算术逻辑单元,又衍生出“功耗墙”问题。人脑则没有“内存墙”和“功耗墙”问题,处理讯息和储存一体,计算和记忆可同时进行。

▲ 通用处理器的典型操作耗能。(Source:中国科学)

另一方面,推动 AI 发展的深度神经网络,虽然名称有“神经网络”四字,但实际上跟人脑神经网络运作机制相差甚远。1,000 亿个神经元,透过 100 万亿个神经突触连接,使人脑能以非常低功耗(约 20 瓦)同步记忆、演算、推理和计算。相比之下,目前的深度神经网络,不仅需大规模资料训练,运行时还要消耗极大能量。

因此如何让 AI 像人脑一样工作,一直是学界和业界积极探索的课题。1980 年代后期,加州理工学院教授卡弗·米德(Carver Mead)提出神经形态工程学的概念。经过多年发展,业界和学界对神经形态芯片的摸索逐渐成形。

软件方面,称为第三代人工神经网络的“脉冲神经网络”(Spike Neural Network,SNN)应运而生。这种网络以脉冲信号为载体,更接近人脑的运作方式。硬件方面,大型机构和公司研发相应的脉冲神经网络处理器。

早在 2008 年,DARPA 就发起计划──神经形态自适应塑胶可扩展电子系统(Systems of Neuromorphic Adaptive Plastic Sc​​alable Electronics,简称 SyNAPSE,正好是“突触”之意),希望开发出低功耗的电子神经形态电脑。

IBM Research 成为 SyNAPSE 计划的合作方之一。2014 年发表论文展示最新成果──TrueNorth。这个类脑计算芯片拥有 100 万个神经元,能以每秒 30 帧的速度输入 400×240pixel 的影片,功耗仅 63 毫瓦,比范纽曼架构电脑有质的飞跃。

英特尔 2017 年展示名为 Loihi 的神经形态芯片,包含超过 20 亿个晶体管、13 万个人工神经元和 1.3 亿个突触,比一般训练系统所需的通用计算效率高 1 千倍。2020 年 3 月,研究人员甚至在 Loihi 做到嗅觉辨识。这成果可应用于诊断疾病、检测武器和爆炸物及立即发现麻醉剂、烟雾和一氧化碳气味等场景。

中国清华大学类脑计算研究中心的施路平教授团队,开发针对人工通用智慧的“天机”芯片,同时支持脉冲神经网络和深度神经网络。2019 年 8 月 1 日,天机成为中国第一款登上《Nature》杂志封面的芯片。

尽管已有零星研究成果,但总体来说,脉冲神经网络和处理器仍是研究领域的方向之一,没有在业界大规模应用,主要是因为基础算法还没有关键性突破,达不到业界标准,且成本较高。

(本文由 品玩 授权转载;首图来源:shutterstock)

2021-02-23 08:58:00
标签:   资讯头条 kotoo科技资讯 kotoo科技 kotoo科技资讯头条 科技资讯头条 KOTOO商业产经 新闻网 科技新闻网 科技新闻 Kotoo科技新闻网 Kotoo科技新闻网 科技新闻 科技新闻网 新闻网 KOTOO商业产经 科技资讯头条 kotoo科技资讯头条 kotoo科技 kotoo科技资讯 资讯头条 Kotoo Kotoo科技新闻网 科技新闻 科技新闻网 新闻网 KOTOO商业产经 科技资讯头条 kotoo科技资讯头条 kotoo科技 资讯头条
返回顶部
跳到底部

Copyright 2011-2024 南京追名网络科技有限公司 苏ICP备2023031119号-6 乌徒帮 All Rights Reserved Powered by Z-BlogPHP Theme By open开发

请先 登录 再评论,若不是会员请先 注册