「机器之心」《Nature》子刊:不仅是语言,机器翻译还能把脑波“翻译”成文字( 二 )


网络分三个阶段处理序列:
时间卷积:类似的特征很可能在 ECoG 数据序列的不同点上重现 , 全连接的前馈网络无法利用这样的特点 。
编码器 RNN:下采样序列被 RNN 按序处理 。 在每个时间步中 , 编码器 RNN 的输入由每个下采样序列的当前样本以及它自己的先前状态组成 。 然后最终隐藏状态(Final hidden state , 上图中的黄色条)提供整个序列的单个高维编码 , 与序列长度无关 。 为了引导编码器在训练过程中找到有用的解 , 研究者还要求编码器在每个时间步中预测语音音频信号的表示 , 即梅尔频率倒谱系数的序列 (MFCCs) 。
解码器 RNN:最后 , 高维状态必须转换回另一个序列 , 即单词序列 。 因此 , 我们初始化第二个 RNN , 然后训练为在每个时间步骤解码出一个单词或序列结束 token(在该点终止解码) 。 在输出序列的每个步骤中 , 除了自身先前的隐藏状态外 , 解码器还以参与者实际说出句子中的前一个单词作为输入(在模型训练阶段) , 或者它自己在前一步预测的单词作为输入 (在测试阶段) 。 与以前针对语音音素进行语音解码的方法相比 , 该方法将单词作为目标 。
「机器之心」《Nature》子刊:不仅是语言,机器翻译还能把脑波“翻译”成文字
本文插图

网络架构 。
【「机器之心」《Nature》子刊:不仅是语言,机器翻译还能把脑波“翻译”成文字】整个网络同时进行训练 , 使编码器生成值接近目标 MFCC , 并使解码器为每个目标词分配高概率 。 请注意 , MFCC 目标提供了一个「辅助损失」 , 这是一种多任务学习的形式 , 其目的仅仅是引导网络找到解决词序解码问题的足够好的解 。 在测试期间 , MFCC 预测被丢弃不管 , 解码完全基于解码器 RNN 的输出 。 所有的训练都是通过反向传播的随机梯度下降进行的 , 并将 dropout 应用于所有的层 。
实验结果
在整个实验过程中 , 研究者用平均单词错误率 (WER , 基于所有测试句子计算) 来量化性能 , 因此 , 完美解码的 WER 为 0% 。 作为参考 , 在语音转录中 , 5% 的 WER 为专业水平 , 20-25% 为可接受的性能 。 这也是语音识别技术被广泛采用的标准 , 尽管它的参考词汇量要大得多 。
我们首先考虑一个示例参与者说 MOCHA-1 的 50 个句子(大约 250 个不同单词)时的编码器-解码器框架的性能(见下图) 。 下图中参与者的平均 WER 约为 3% 。 以前最先进方法的语音解码 WER 是 60% , 并使用较小的词汇量(100 词)进行实验 。
「机器之心」《Nature》子刊:不仅是语言,机器翻译还能把脑波“翻译”成文字
本文插图

解码句子的WERs 。
编码器-解码器网络的卓越性能源自什么?为了量化其各种因素的贡献 , 研究者系统地删除或削弱了它们 , 并从头开始训练网络 。 上图中的第二个方框显示了对数据进行空间下采样以模拟较低密度 ECoG 网格的性能 。 具体来说 , 只留下了网格两个维度上四分之一的通道(也就是说 , 实际上是 64 个通道 , 而不是 256 个通道) 。 WER 大约是原来的四倍 , 仍然在可用范围内 , 这表明了除高密度网格外其它因素对于该算法的重要性 。
第三个方框内显示当 MFCC 在训练过程中未被锁定时的性能 , 其 WER 与使用低密度网格数据训练的模型的 WER 接近 , 但仍然明显优于先前的语音解码方法 。
接下来 , 研究者考虑一个输入层是全连接而不是卷积的网络(第四个框) , WER 达到了原来的 8 倍 。
然后考虑实现高性能需要多少数据 。 下图显示了四个参与者的 WER , 作为神经网络训练重复次数的函数 。 没有任何参与者的训练数据总量超过 40 分钟 , 当至少有 15 次重复训练时 , WER 可能低于 25% 以下 。
在下图中 , 有两名参与者 , 他们在 MOCHA 句子上的训练次数很少 (参与者 a/绿色实线 , 参与者 d/棕色实线) , 因此解码性能较差 。


推荐阅读