声学信号的处理,特别是关键词检测(KWS)在人工智能语音激活系统中起着关键的作用,并且已经在语音助手、智能家居和自动驾驶等领域得到了广泛的应用。目前,KWS任务主要依靠云计算技术结合卷积神经网络(CNN)和深度神经网络(DNN)等人工神经网络来执行,这种方法在扩展性和灵活性方面具有显著优势,然而也存在着信号延迟和隐私泄露等问题。受人类听觉系统启发,人们提出在边缘计算平台中应用递归神经网络(RNN)来处理声学信号,从而保护个人隐私并减少信号延迟。由于RNN隐藏层神经元之间彼此循环连接,因此先前的输入信号能够保留在网络的内部状态中,从而使网络能够处理与时间序列相关的任务。然而,传统的RNN存在梯度耗散/爆炸问题,导致训练过程复杂且困难。
针对上述问题,复旦大学芯片与系统前沿技术研究院、集成芯片与系统全国重点实验室刘明院士团队报道了一种基于CuInP2S6(CIPS)/石墨烯异质结平面器件的单节点储备池计算(RC)系统用于实现KWS任务。CIPS中的铁电极化场能够有效调节CIPS/石墨烯以及CIPS/电极界面的肖特基势垒高度,有助于电子以热发射的形式进行输运,并使得器件表现出显著的非线性电流响应和衰退记忆特性。此外,该器件还具有多样的突触可塑性和优异的时间信息分辨能力。基于该异质结器件,本文进一步构建了单节点RC系统,用于模拟对关键词自然数1-9的识别。在识别过程中,该系统对所有数字的识别均达到了较高的准确率(>94.6%)和召回率(>92.0%),表明其在KWS任务中表现出色。此外,该系统亦具有较强的鲁棒性,即使在储蓄池节点数减少到200或噪声水平增加到10%的情况下,任务的准确率和召回率仍然能保持在80%以上。本文的研究工作展示了以二维异质结器件为物理节点构筑的单节点RC系统可作为未来处理声学关键词的计算平台,推动了其在人工听觉系统中的应用。
相关成果以“Physical Reservoir Computing Using van der Waals Ferroelectrics for Acoustic Keyword Spotting”为题发表在ACS Nano上。复旦大学芯片院曹亦博士、芯片院和复杂体系实验室联培张泽锋博士为论文共同第一作者,向都青年研究员、张续猛青年副研究员以及光电研究院刘陶青年研究员为论文通讯作者。该工作获得了国家重点研发计划、国家自然科学基金等项目的支持。
(a) 人类听觉系统示意图;(b) CIPS/石墨烯异质结平面器件结构示意图;(c) 单节点RC网络结构示意图;(d) 网络输出结果图;(e) 单节点RC网络对数字1-9的识别准确率以及召回率。
原文链接:https://pubs.acs.org/doi/10.1021/acsnano.4c06144