展会信息港展会大全

知存科技的存算一体落地之路
来源:互联网   发布日期:2020-01-02   浏览:122次  

导读:作者:杜芹 目前主流 AI 芯片都基于冯诺伊曼计算架构,其缺点是成本高,功耗高,且有 90% 以上的资源都消耗在数据的搬运上。随着 AI 算法的持续升级与 AI 应用的持续普及,AI 领域迫切需要性能更强、功耗更低、成本更低的芯片,打造智能万物互联 ......

作者:杜芹

目前主流 AI 芯片都基于冯诺伊曼计算架构,其缺点是成本高,功耗高,且有 90% 以上的资源都消耗在数据的搬运上。随着 AI 算法的持续升级与 AI 应用的持续普及,AI 领域迫切需要性能更强、功耗更低、成本更低的芯片,打造智能万物互联时代。因此,架构创新成为必经之路,目前主要有两条技术路线:一是仍然基于老架构,使其老树开新花,以英伟达、AMD、Xilinx 和 Google 等代表的芯片大厂基于冯诺伊曼计算架构继续发展 GPU、FPGA 和 ASIC 芯片;二是开发新架构,如存算一体芯片、软件定义硬件、类脑芯片等。国内以知存科技为代表的初创企业正在发力存算一体芯片架构。  

不久前,知存科技发布基于高精度 Nor Flash 模拟存算一体架构的 MemCore001/ MemCore001P 两款智能语音芯片。采用国际领航技术,以其低功耗和高性能的特点,知存科技将重新定义智能语音交互。

知存的缘起

知存科技是一家专注于存算一体人工智能芯片研发的公司。什么是存算一体技术?这是一种有别于经典的冯诺依曼计算架构的新型计算架构。在冯诺依曼计算架构中,存储和计算是分离的两个芯片或者两个模块,数据必须在存储器与处理器之间来回搬运,消耗了大量的时间和功耗;新型存算一体架构则是将存储和计算有机地结合在一起,直接利用存储单元进行计算,极大地消除了数据搬移带来的开销。

存算一体技术被称为新一代人工智能芯片技术。在人工智能运算中,存储器和处理器的数据搬运是瓶颈,而存算一体解决了传统芯片在运行人工智能算法上的 存储墙 与 功耗墙 问题,可以数十倍地提高人工智能运算的效率,降低成本。特别适用于智能语音识别、降噪、声纹识别,人脸、手势、文字等识别。

据悉,知存科技创始团队是国际上最早一批研究 Nor Flash 存算一体的研发人员。早在 2012 年,知存科技现任 CTO 郭昕婕开始研发基于浮栅晶体管的存算一体芯片,耗时 4 年,用 3 种不同工艺完成了 7 次流片,2016 年首次在深度学习上验证了全球第一个基于浮栅晶体管的存算一体芯片。此后,多家单位跟进该技术的研发与产业化,目前在国际上已获得了英特尔、亚马逊、微软、美光、应用材料等半导体巨头的青睐。

2017 年,受亚马逊 Echo 智能音箱的启发,预感未来人工智能的发展对高能效芯片有着强烈需求,王绍迪夫妇提前结束博士后研究工作,回国创业。2017 年 10 月,知存科技成立,针对智能语音应用场景设计了国际领先的高精度、低功耗 Nor Flash 存算一体芯片。

MemCore 震撼发布,功耗近乎为0

时隔一年,在 2019 年 11 月,知存科技重磅推出公司首款基于模拟存算一体的智能语音芯片:MemCore001/ MemCore001P 系列。该系列芯片基于芯来科技 RISC-V 的内核研发,可以在 500uA 以下功耗完成深度学习降噪、语音识别、声纹识别等应用,低功耗运行时小于 300uA,待机功耗小于 10uA。

MemCore001 系列芯片

众所周知,以深度学习为代表的 AI 算法需要频繁地进行数据存取,低功耗和高性能之间的矛盾一直是端侧 AI 芯片落地的难题。知存科技研发的存算一体技术完美地解决了这个难题。

MemCore001 系列芯片采用国际领先的模拟存算一体芯片架构,使用 Flash 单元完成 8bit 权重存储和 8bit * 8bit 的模拟矩阵乘加运算。单一 Flash 阵列可并行完成 200 万次矩阵乘加法运算,计算吞吐量相比 DRAM 和 SRAM 等存储器带宽高出 100-1000 倍。

MemCore001 芯片的最大优势在于存算一体技术可以几乎 0 功耗完成深度学习运算,其中 2MB 的存算一体矩阵运算只需要 100-200uA,是其他芯片的几十分之一。基于此项优势,知存在 MemCore001 的设计上有两个重要的特征:1)利用高算力和大规模神经网络,提高语音识别和降噪效果。2)无系统依赖性的低功耗设计,数倍提高电池使用时间。

基于上述特点,MemCore001 有几个明显的优点:

2MB 的神经网络可以运行基于深度学习的单麦或者双麦降噪,效果优于基于传统算法多麦克风矩阵。

支持运行基于深度学习的通话降噪,解决小电池设备通话噪音大的问题。

支持 One-Shot 语音命令控制,解决了传统芯片必须先唤醒后识别的问题,大幅度提高人机交互体验。

MemCore001 的低功耗设计没有系统依赖性,无需系统其它芯片协助,真正降低系统功耗。

针对语音识别应用的特点,使芯片在低功耗模式下依然保存必备的声音信息,保证识别效果。

MemCore001 芯片经过 3 次流片,针对智能语音类应用,与客户以及算法公司经历多次打磨。

MemCore001/MemCore001P 芯片内置 2MB 深度学习网络参数存储空间,可同时存储和运算多达 32 层的多个(相同或不同)深度学习网络算法,支持 DNN/RNN/LSTM/TDNN 等多种网络结构。此外,还可与多种主流 MCU 协同工作,兼容基于 ARM 架构的 Cortex-M4/M3/M33/M0 等系列 MCU 以及基于 RISC-V 的 MCU。

其中 MemCore001p 在低功耗模式下,采用片内独立的低功耗时钟,可与其他芯片通过中断协同交互,从而进一步降低整个系统的功耗。针对电池驱动设备,可以在延长数倍使用时间的前提下,大幅度提高智能语音交互体验。

MemCore001/MemCore001P 适用于电池供电的小型智能设备、可穿戴设备和有源供电的智能家电、智能控制等应用。目前提供 QFN7X7 封装形式,后续将提供 QFN5X5 及 WLCSP 封装形式。该系列芯片的开发工具链也将于近期提供。

关于公司的核心优势,王绍迪表示,知存研发的存算一体在深度学习推理的计算效率是传统架构的 20-100 倍,因此可以轻巧的运行大算力的深度学习网络,降低复杂算法被应用的难度。

存算一体作为一种新的芯片架构,在实际研发当中仍有许多困难需要攻克。一是在芯片设计阶段,由于与传统的芯片设计方案不同,所以目前市面上没有成熟的 EDA 工具辅助设计和仿真验证;二是在芯片流片之后,也没有成熟的工具帮助测试;三是在芯片应用层面,需要设计新的软件进行芯片的适配。因而,知存科技也正在着力研发芯片设计和应用的专业软件。

继续推进存算一体芯片技术

在知存科技 CEO 王绍迪看来,像语音识别一样,存算一体在人工智能很多应用领域都拥有非常明显的优势,无论端侧还是云侧。

在端侧 AI 的落地过程中,芯片扮演着非常重要的角色,由于成本和功耗的控制,市场上已有的芯片很难再满足新增的 AI 需求,这也导致了 AI 落地速度受制于芯片的迭代周期。如果新架构能大幅度提高能效比和性价比,将大幅度缩短 AI 的落地周期。AI 的落地一直在稳步进行,近几年的支付、汽车、家电和穿戴设备已经逐渐被 AI 改造。而且更多的 AI 应用还有待开发,目前可能只完成了 10%。

王绍迪表示: 存算一体技术是目前 AI 加速领域研究最热的方向之一,基于 Flash 的模拟存算一体技术是其中发展最快、最接近产业化落地的一个方向。知存科技一直引领该方向的技术路线。基于 Flash 的存算一体芯片技术,公司已经申请了 50 多项国内外专利,目前国际上其他研发存算一体芯片的公司也逐渐转向知存的这条技术路线。

知存科技的短期目标是针对于端侧应用的存算一体实现,而智能语音是端侧最重要的组成部分。未来,知存科技还会将存算一体推向视觉应用以及传感器融合应用。同时知存正在基于 RISC-V 研发多核存算一体架构,预计将在 2020 年底发布。

截至目前,知存科技累计完成三轮产业资本领投过亿融资。2018 年 2 月,获得兆易创新关联方和启迪之星的千万投资;2018 年 6 月获得科大讯飞领头的近千万投资;2019 年 7 月,知存科技宣布完成由中芯聚源领投的近亿元A轮融资。

在人才储备上,公司员工近 60 人,研发团队 80% 以上拥有海内外知名高校硕士、博士学位和丰富的行业工作经验,团队成员配合默契。

知存科技已万事俱备,在产业化落地方面,知存科技将持续跟踪客户和市场需求,不断推进该技术的迭代更新,为客户带来 AI 产品升级,为 AIoT 万物互联提供软硬件技术支撑。

结语

正如个人计算机的发展带来了 Intel 的崛起,智能手机的发展带来了 ARM 的崛起,5G 和 AIoT 的发展也会给芯片行业带来大量新的机遇,而以知存科技为代表的新兴技术企业必将在整个芯片行业写下浓墨重彩的一笔。

赞助本站

人工智能实验室

相关热词:

AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港