RNN-T
李宏毅语音课程-RNN-T模型
rnn-t decoder:给一个输入h,输出多个字符 直到输出空字符Φ。接着输入下一个MCCC特征 实际会在输出字符的后面会 加一个 RNN(最上面的蓝色块)。把原来的RNN剔除(中间黄色块)。 原因:1. 增加的RNN相当于一个语言模型LM,可以提前从text中训练。2. 方便RNN-T的训练。 ......
RNN-T语音模型记录
RNN-T 模型最后一层的输出是一个 4-D 的 tensor,维度是 (N, T, U, C), 其中 N: batch size。数值大小: 一般是几十 T: encoder 的输出帧数。数值大小:一般是好几百 U: decoder 的输出帧数。数值大小:几十至上百 C: vocabulary ......