清华大学软件定义芯片团队两篇论文入选顶会M
杨净?发自?凹非寺量子位?报道?|?公众号?QbitAI
最近,第53届国际微架构大会(MICRO)在线上顺利召开。
作为计算机体系结构四大顶级会议,清华大学
魏少军
、
刘雷波
团队有两篇入选该会议论文。
这是该团队既去年斩获MICRO?2019最佳论文提名后,在体系结构顶级会议上的又一重要突破。
在会议上,他们做了两篇学术报告。
分别为:
Constant-time?Alteration?Ternary?CAM?with?Scalable?In-Memory?Architecture
一种基于可扩展存内架构并支持常数时间更新的三态内容寻址存储器。
TFE:?Energy-efficient?Transferred?Filter-based?Engine?to?Compress?and?Accelerate?Convolutional?Neural?Networks
一种基于转换卷积核的卷积网络压缩与加速架构。
报告人分别是两篇论文一作清华大学微电子所博士生
陈迪贝
和
莫汇宇
,论文通讯作者均是
刘雷波
教授。
什么样的研究?
基于可扩展存内架构并支持常数时间更新的三态内容寻址存储器
△
清华微电子所博士生陈迪贝同学报告论文的主要工作
三态内容寻址存储器(TCAM)凭借其不错的匹配性能,广泛应用于现代交换机和路由器的高速包分类。
然而,传统TCAM依赖于物理地址的规则优先级编码面向高速匹配设计,无法满足规则快速更新的需求。主流硬件交换机每秒仅支持大约四十至五十条规则更新,高达
数百毫秒
的更新延迟成为了网络性能瓶颈。
于是,基于这个问题,陈迪贝介绍了一种支持常数时间更新的三态内容寻址存储器
CATCAM
。
△CATCAM芯片原型
具体来说,就是提出了基于矩阵的优先级编码方法,将规则的优先级关系与地理地址解耦。
规则的优先级关系被编码在优先级矩阵中,当输入项通过匹配矩阵完成匹配后,其结果将遍历优先级的匹配规则,对应8T?SRAM的位线计算逻辑。
借助双电压列写方法,新规则可插入矩阵中任意空位,实现常数时间的规则更新。
△基于矩阵的优先级编码及其存内计算实现
此外,该工作还设计了运用全局优先级编码的层次化扩展架构,采用基于区间的动态调度逻辑,在满足扩展性的同时保证了任意规模下常数时间的规则更新。
△CATCAM硬件架构
最终,通过重新设计三态内容寻址存储器的优先级机制,CATCAM消除了规则更新导致的大量现有规则迁移,在提升更新吞吐量和响应速度的同时保证了扩展性。
与现有最先进的解决方案相比,实现了至少
三个数量级
的加速比。
主要合作者还有李兆石、熊天柱、刘志伟、尹首一等。
基于转化卷积核的神经网络压缩和加速架构
△
清华微电子所博士生莫汇宇同学报告论文的主要工作
神经网络模型的参数决定了模型大小,大网络会消耗更多的参数和计算来提高网络的拟合能力。
无论使用GPU、CPU,都需要考虑现存或内存对整个模型参数的保存能力,对面积、功耗极为敏感的边缘端设备,无法接受过多的参数和计算。
此前,就有研究人员提出
转换卷积核
的方法,利用结构化压缩,来使硬件运行更高效。但该方法由于存在着大量的重复计算,限制了卷积运算速度的进一步提升。
基于此,莫汇宇同学介绍了一种基于结构化压缩的神经网络加速方法,并提出了一种高效的神经网络加速架构。
在同样工艺和频率下,该架构的面积为Eyeriss结构的
57.96%
,功耗为其
24.12%
。
△整体硬件架构
这一方法减少了卷积核转化过程中大量冗余计算。在模型压缩率不变的情况下,有效提高了网络模型的运算速度和能效。
该工作设计了堆叠的寄存器堆,当相同权值出现在转化卷积模型卷积核的同一行时,使用寄存器堆存储每个权值与输入激活值的乘积,以及不同权值和输入激活值的局部和结果。
当处理不同的转化卷积模型时,通过与之对应的数据和控制流,将共享乘积和局部和传输到不同的计算单元,以便重复利用生成不同输出通道的结果。
△堆叠寄存器组重复利用存转化卷积核模型运算的中间局部和
此外,研究人员还设计了一种有效的存储调度方式。
在整个卷积处理过程中,输入数值按行输入,每行都会同时和卷积核的所有行卷积运算,其卷积结果将会分别存储在单独的存储模块中。