博客摘录「深度学习 | 编码器-解码器网络、seq2seq模型、束搜索算法」2024年9月7日

2025/4/2 19:16:30 来源：https://blog.csdn.net/Stks66666/article/details/141986940 浏览: 次关键词：博客摘录「深度学习 | 编码器-解码器网络、seq2seq模型、束搜索算法」2024年9月7日

老师在课上是这样引入的：

Sequence to Sequence Learning：两个循环神经网络组成。

红色部分和绿色部分都是RNN。

预测任务就是从一个序列到另一个序列。

第一个序列称之为原序列，第二个序列称为目标序列。两者长度可能不同。

网络编码器接收原序列作为输入序列，最终在 t 时刻生成隐藏状态，我们称之为 z，有时也称之为 c，他将作为序列的编码值，是一个固定长度的向量。

解码器网络的输入为，当前的输入 y t 和 z ，输出为 I ，I 将作为下一时刻的输入。这样就可以计算出最终 y1到yT的条件概率。

对于机器翻译而言，编码器依次处理源语言的每一个词，最终得到一个固定长的语义向量 z ，解码器以标志位bos（句子的开头）加上 z 作为输入，预测词的概率，选择概率最高的词 I ，I 和 z一起被送入下一时刻预测下一个词 am ，直到句子的结尾出现 EOS 标志位结束。

你可能会听到：

当需要进行不定长的序列输入输出处理时，既可以使用编码器-解码器的模型，也可以使用seq to seq的模型，有时会混用。

这两种模型是非常像的，只是RNN Cell是不同的，一个选用的是GRU，一个选用的是LSTM，本质都是两个RNN。

最新新闻