语音识别系列之基于脉冲神经网络的语音唤醒( 二 )


2023年2月 , 比利时根特大学的Sun Pengfei等人[9]指出当前SNN在音频领域应用时的局限性——训练时大多只关注突触权重 , 而少关注脉冲传递过程中的轴突延迟 , 因此提出在训练中逐层调整轴突延迟上限 , 具体做法是先对网络预训练几个epoch得到初始的延迟 , 再使用滑动窗口大小和上限比例来校准上限并微调延迟 。训练使用SLAYER框架 , 在SHD和NTDIDIGITS数据集上 , 和其他工作相比 , 以最少的参数取得最佳分类准确率超过 。
二、讨论
(1)在学界的研究论文中 , KWS的性能指标主要以分类准确度为主 , 多词(唤醒词+命令词)常以混淆度矩阵展示分类性能 。但在业界 , KWS性能主要表现方式是某时段(如每天)内误唤醒1次下的唤醒率 , 误唤醒测试由各团队在自收集的语料库上测得 。工业界的表达自然更为直观 。KWS本质还是一个分类问题 , 分类越精准 , 业界指标也会更好 。由于学界没有一个各方共用的误唤醒测试数据集 , 因此给出分类准确率即可 。
(2)目前SNN还不成熟 , “入局”的科研人才和工程人员太少 , 训练框架不少却没有一个占主导地位 , 甚至背后的理论都还在摸索实践中 。目前 , SNN-KWS论文发表者多在学术领域 , 不了解业界先进水平(实际上 , 产业界基于ANN-KWS路线的语音唤醒方案已经做到参、算量均极小的水平 , 且KWS问题的核心在训练策略、击中策略的设计 , 而不在网络的具体实现形式) , 且原本也不做KWS , 只是为了验证SNN可应用于KWS , 故而基于SNN路线的KWS也并没有优化到极致 , 未来还有很大的发展空间 。
(3)虽然目前SNN的训练还比较困难 , 应用有限 。但回顾ANN的发展历程 , 在误差反传出现之前 , ANN不也同样如陷泥潭、裹足不前么?因此还是应当对SNN的发展抱有期待 , 它毕竟是人类对脑工作机制的模仿(即便现在还很拙劣) , 是朝着轻量、节能的路线上的努力探索 。在当下以ChatGPT为代表的大功耗、大参量模型搅动学界、业界乃至世界的时代狂热背景下 , 持续投入SNN发展的科研及工程人员 , 仿佛背离时代主流在坐冷板凳 。但当初DNN的先驱如Hinton等人 , 不也同样坐了好久的冷板凳么?

参考文献:
[1] Chen, Guoguo, Carolina Parada, and Georg Heigold. “Small-footprint keyword spotting using deep neural networks.” 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2014.
[2] Pedroni, Bruno U., et al. “Small-footprint spiking neural networks for power-efficient keyword spotting.” 2018 IEEE Biomedical Circuits and Systems Conference (BioCAS). IEEE, 2018.
[3] Yilmaz, Emre, et al. “Deep convolutional spiking neural networks for keyword spotting.” Proceedings of INTERSPEECH. 2020.
[4] Pellegrini, Thomas, Romain Zimmer, and Timothee Masquelier. “Low-activity supervised convolutional spiking neural networks Applied to speech commands recognition.” 2021 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2021.
[5] Weidel, Philipp, and Sadique Sheik. “WaveSense: Efficient Temporal Convolutions with Spiking Neural Networks for Keyword Spotting.” arXiv preprint arXiv:2111.01456 (2021).
[6] https://www.52audio.com/archieves/126158.html
[7] Yin, Bojian, et al. “Attentive decision-making and dynamic resetting of continual running SRNNs for end-to-end streaming keyword spotting.” Proceedings of the International Conference on Neuromorphic Systems 2022. 2022.
【语音识别系列之基于脉冲神经网络的语音唤醒】[8] Nilsson, Mattias, et al. “A Comparison of Temporal Encoders for Neuromorphic Keyword Spotting with Few Neurons.” arXiv preprint arXiv:2301.09962 (2023).
[9] Sun, Pengfei, et al. “Adaptive Axonal Delays in feedforward spiking neural networks for accurate spoken word recognition.” arXiv preprint arXiv:2302.08607 (2023).




推荐阅读