「芯片+AI 算力+AI 开发平台」,合肥君正公布全栈式低功耗 AI 技术
2021.05.21

4大亮点、5大竞争力,合肥君正「AIE+Magik」对垒智能视觉领域。

 

文章来源:AI掘金志

 

习惯在针尖上跳舞的合肥君正,在萌芽之时就认识到AI的重要性。

 

2014年前后,视频芯片市场已有众多厂商,且大多鏖战成像和传输。彼时的君正意识到,用模仿的方式硬生生地去打这个市场难以出头且毫无价值,而AI将成为下一战场的关键。从那时起,AI与算法部门成为君正最早的技术部门之一。

 

7年白驹过隙,那些或深或浅的脚印现已踏出一条康庄大道:最近,君正正式公开了自己的AI硬件加速引擎和AI开发平台Magik。

 

君正视频事业部副总经理刘远表示,这套技术从开始至今,经历了各方面的锤炼:

 

“从T01到T02再到T31/T40,从computer vision到deep learning再到混合量化,从安防摄像机到低功耗门铃再到立体机器视觉,从Tensorflow/Caffe到Magik,从第一家客户试探性接入到大量产品算法落地,这套技术已经从创新研发走到普惠应用。”刘远说道。

 

这历时多年的武器,将往视频行业投下一枚怎样的石头,又怎样协助下游客户落地更具竞争力的产品?

 

直奔落地的一整套「芯片+AI算力+AI开发平台」解决方案

 

如何为端侧AI应用提供一套成本亲和,性能出众,功耗低,又易于落地的基础技术组件?这正是合肥君正一直在思考的命题,也是君正AI技术研发的核心目标。

 

刘远指出,经过多年摸索,这样一套基础技术组件如今包含:

 

一系列落地芯片:布局完备,覆盖高中低阶,除AI以外具备完整的各方面竞争力,成本亲和,性能均衡,效果出众,功耗领先,被市场认可并且持续大量出货。这就像AI和算法落地生根的土壤,越广阔越好。

一套先进的AI加速硬件:优秀的PPA(Performance, Power, Area),兼具高性能和灵活性,并且通过有效创新,真正突破AI推理在端侧产品中的各种瓶颈,使得高发热,高带宽,成本冗余等在实际产品中不再是问题。

一个完善的算法开发平台:敏捷的算法移植过程,除了提供一键式算法部署,还提供最先进的量化感知训练方法论,提供典型网络的全流程开源代码,让算法专家专注于挖掘痛点与数据的价值。

 

君正的整体AI技术架构如下图:

 

 

其中AI-Engine(AIE)是一整套AI加速硬件,包括CPU,NNA,SIMD,协处理器和RAM Pool等多重加速技术。

 

主要优势是“三高三低”:算力高,利用率高,灵活性高;功耗低,外围成本低,带宽需求低。

 

Magik是基于AIE的算法开发平台,除了基本的工具链还包含其他丰富的辅助开发资源。并且支持后量化和更先进的量化感知训练(QAT)。

 

“卷积神经网络的本质是计算,幸运的是,君正一直是国内为数不多的完整CPU计算技术的拥有者,这一点,奠定了我们的AI技术具有较高的发展起点。”

 

刘远说道,“而Magik融合了我们这几年在视觉产品落地上的各种经验,能够发挥AIE独特的领先性能。二者搭配,呈现在行业客户面前的就是一整套完整的‘芯片+AI算力+AI开发平台’的解决方案,使得应用者非常容易落地。”

 

利用这套平台,可以带来多方面长远的优势:

 

产品化优势:这套技术可运行于君正当前和未来的各种芯片当中,下游产业链条成熟,碎片化风险低,生态一致性有保障;

商业化优势:已有大量芯片持续出货,品牌背书充足,能加快算法赋能和变现的节奏;

成本优势:包括eBOM成本,算法成本,研发成本等;

性能优势:可获得更高的物理算力,更高的利用率;

低功耗优势:体现在产品端就是发热明显低,续航更好,散热无忧;

 

 “AIE+Magik是君正原生创新的技术,完全自主。T40作为搭载这套技术的最新一代芯片,却并非第一代产品。”刘远强调,“在这之前,我们经过了T01/T02/T31等几代量产芯片的验证,积累了大量宝贵经验,到T40这里,AIE+Magik已经十分成熟”。

 

AIE—有效突破端侧AI的算力瓶颈

 

AI-Engine(AIE)是君正完全自主创新的一套AI加速硬件组合,广泛支持各类神经网络加速,如CNN/RNN/GCN等,也支持传统CV算法和平面运算的加速。得益于公司对CPU技术的掌握,AIE实现了其他一般芯片公司难以做到的CPU与NPU的同构设计。

 

 

在全球各种不同的AI加速技术路线中,DSA(Domain Specific Architecture)尤其适合端侧推理场景。AIE引用了多种DSA的设计理念,实现了一整套满足复合算法加速的硬件组成:

◆支持SMT多核架构的XBurst2 CPU,凝聚了君正团队20多年的CPU技术精华;

◆128bit/512bit/1024bit位宽的SIMD指令集,针对向量运算加速;

◆算力高达2T - 32T的NN加速阵列,针对张量计算加速,支持混合位宽量化;

◆协处理单元,对其他运算加速;

◆高效RAM pool,深度优化内存带宽吞吐

◆实测运行功耗很低,8T算力场景下典型功耗小于500mW,能耗比最低达到了0.05W/T级别;

 

“与云上的AI芯片加速不同,在端侧芯片上,4T算力曾经是天花板,这并不是因为硬件无法将算力继续提高,而是因为端侧产品在算力以外有太多的制约因素。”刘远解释道,“如果不优先把NPU内部的PPA、带宽、功耗等关键障碍解决,即使再提高计算矩阵的规模,实际芯片也大概率发挥不出来。”

 

归纳起来,端侧算力的瓶颈主要集中在:产品端的资源限制,算法多样性的挑战和算法开发环境。

 

 

端级芯片在计算资源和成本都面临限制,无法像云端服务器那么丰富和冗余。

 

在终端售价,RAM内存容量,ROM模型存储,发热控制,DDR的带宽等方面都面临极大挑战。

 

所以端级产品需要与云端不同的AI加速技术。

君正AIE特别针对端级应用设计,采用专用硬件架构DSA(Domain Specific Architecture),与常见的NPU相比,有明显的规格优势:

◆MAC利用率提升1到2倍,推理速度提升2到4倍;

◆算法运行的RAM/ROM消耗减少50%~70%;

◆带宽降低35%~85%;

◆发热减少40%~80%。

 

无论2C还是2B/G市场,不同应用对AI算法的要求差异很大,即使是相同功能的算法也难以做到单一模型覆盖所有场景。

 

其次人工智能学术领域仍然在发展,虽然变化的速度减缓,但未来仍然会不断出现新的网络,新的流程,新的算子,新的训练方法等等,这些决定了目前的AI加速硬件还没有到达统一收敛的阶段。

 

端级算法本身呈现多样性,碎片化的客观现状。

 

这就要求芯片中硬件的加速能力非常灵活,能够应对各种未知算子/算法/网络/流程的变化,这一点对AI引擎的设计提出巨大挑战。

 

君正AIE结合了多年积累的CPU技术,摸索了一套兼顾高性能和灵活性的创新技术:

◆算力达2T ~ 32T的NN加速阵列,实现千倍加速比;

◆非标计算协处理单元,实现百倍加速比;

◆28bit到1024bit位宽的SMID指令集,实现几十倍加速比;

◆RAM Pool系统,显著降低带宽;

◆高主频多核多线程XBurst®2 CPU。

 

“过去至今各种行业摄像机搭载的AI算法,大多存在‘性能冗余但利用率低’、‘成本偏高但有浪费’、‘功能可用但难以普及’等情况,随着搭载AIE+Magik的T40逐步到位,能做到8T算力,小于0.5W的加速功耗,并且内置了DDR,这些痛点会得到很大改善。”刘远表示。

 

Magik—全栈式深度神经网络开发平台

 

硬件是躯体,软件和算法是灵魂。如果是AIE是躯体,那么Magik就是灵魂。

 

Magik是一个面向端侧AI应用的全栈式开发平台。与一般的AI开发工具链相比,Magik包含了更丰富的内涵:

 

全流程,一体化。集模型训练、优化转换、部署推理于一体,并提供模型检查器、调优器、性能分析器等工具;

多框架。全面支持pytorch /tensorflow /mxnet /caffe /onnx 等主流框架;

量化感知训练(QAT)。支持2/4/8/16任意精度混合训练及转换优化,在保证精度的同时,能充分利用AIE的计算资源;

灵活性。同时支持QAT和后量化方案,加速应用灵活部署;

开放性。开放人脸/人形等常见算法的从训练到部署全流程代码,以及经典网络的backbones,增强易用性,加速落地。

 

“Magik不仅仅是一个AI转换工具链,还是一个丰富的开发平台,”刘远补充道,“有工具链,framework插件,Model Zoo,常用的backbones,还包括一般摄像机非算法的支撑功能,例如成像,编码,帧数据流,内存复用优化,存储降维,多目同步,甚至内存泄露防范等都有体现在内,真的值得用一用”。

 

Magik的一大特色是支持较为先进的QAT方法论。端级AI应用目前大多还停留在后量化方法阶段,相比QAT,后量化更像是端级AI的过渡阶段。后量化过程相对简单,但精细度不足,算力容易形成浪费,功耗成本带宽等难以解决。QAT方法能够更精细地根据加速硬件的特点调整训练细节,从而发掘端级AI算力的潜力,达到提升算力利用率,降低功耗,带宽和成本的效果。

 

使用Magik的开发过程很容易上手,流程示意图如下:

 

 

“Magik就像一把‘云梯’,帮助客户快速落地AI算法和视觉产品,它能给行业带来长期的助力”。

 

与AIE的发展相辅相成,Magik具有未来小型生态的潜力,其坚实基础是君正过去,目前和未来所有的算力芯片,只要君正芯片能够覆盖到的市场领域,都可以发挥作用。

 

春风化雨时,润物细无声

 

“早几年当AI的浪潮滚滚而来,喧嚣尘上之时,我们并没有太多发声,但并不代表我们没有行动。”刘远讲道,“当东西没有真正拿得出手时,我们自己心里这一关就过不去。而现在,AIE+Magik这一套技术,已经服务了很多客户,并让不少人尝到了甜头”。

 

据了解,AIE+Magik已经成功服务了超过几十家客户,包括一些行业知名品牌,传统算法公司,行业监控企业,大型互联网品牌,运营商以及初创极客。

 

这些服务,远超算法开发这个层面。要实现设备承载不同的算法运行,首先需要克服算法计算标准化的困难,但这只是端侧AI落地过程中挑战的冰山一角。