|AI框架应用：用PyTorch构建自然语言生成（NLG）系统( 三 )

本文插图

该模型的最终输出将是“正在发生什么” 。这就是我们将用于执行NLG的文本生成策略。接下来，我们将在电影情节摘要的数据集中训练自己的语言模型。
使用PyTorch生成自然语言
现在我们知道了神经语言模型是如何工作的以及需要什么样的数据预处理，让我们训练一个LSTM语言模型以使用PyTorch执行自然语言生成。
让我们快速导入必要的库。

本文插图

1.加载数据集
我们将使用CMU电影摘要语料库的样本。

本文插图

你可以使用下面的代码打印五份摘要，这些摘要是随机抽样的。
＃个样本随机摘要 random.sample（movie_plots ， 5）2.数据准备
首先，我们将稍微清除文本。我们将仅保留字母和撇号标点符号，并从文本中删除其余的其他元素。
＃干净的文字 movie_plots = [re.sub（“ [^ az']” ， “” ， i）for movie_plots中的i]不必执行此步骤。只是我希望我的模型仅关注字母，而不必担心标点符号或数字或其他符号。
接下来，我们将定义一个函数以从数据集中准备定长序列。我已指定序列的长度为五。它是一个超参数，您可以根据需要更改它。

本文插图

因此，我们会将电影情节摘要传递给此函数，并且它将为每个输入返回固定长度序列的列表。

本文插图

输出： 152644
一旦准备好相同长度的序列，就可以将它们进一步分为输入序列和目标序列。

本文插图

现在我们必须将这些序列（x和y）转换为整数序列，但是在此之前，我们将必须将数据集中的每个不同的单词映射为一个整数值。因此，我们将为令牌字典创建一个令牌，并为令牌字典创建一个整数。

本文插图

输出：（14271 ， 'the'）
＃设置词汇量 vocab_size = len（int2token） vocab_size输出： 16592
词汇量为16,592 ，即我们的数据集中有超过16,000个不同的标记。
一旦我们有了令牌到整数的映射，就可以将文本序列转换为整数序列。

本文插图

3.模型制作
我们将批次的输入序列和目标序列传递给模型，因为最好是按批次进行训练，而不是一次将整个数据传递给模型。以下功能将从输入数据创建批次。

本文插图

现在，我们将定义语言模型的体系结构。

本文插图

本文插图

输入序列将首先通过嵌入层，然后通过LSTM层。 LSTM层将提供一组与序列长度相等的输出，并且这些输出中的每一个都将传递到线性（密集）层，在该层上将应用softmax 。

|AI框架应用：用PyTorch构建自然语言生成（NLG）系统( 三 )

推荐阅读

「金星」金星实力太强很抢手，任嘉伦感觉最尴尬，选手选导师感觉像被安排

曾宝仪|曾宝仪，欧豪，龚俊，张小斐

抢票APP的潜规则到底该如何正确的抢到回家的票

浅表性胃窦炎

特斯拉|宣称能跑480实际跑378公里特斯拉被起诉退一赔三！车主败诉

电视柜上面放什么花好看电视柜上面放什么花比较好

涵雪崂山红茶多少钱,崂山红茶和绿茶哪个好

直播港澳台|为何一些港人会支持特朗普？一厢情愿的幻想背后是什么？

伊朗|若美日联手，中国能应对它们的打击吗？看美国上将怎么说

梧桐|梦幻西游：160封印+流云项链26万成交，150无级别女衣52万被瞬秒

“BOE（京东方）创新日”走进蔚来汽车解锁智慧出行新体验

荣耀MagicBook|首销优惠200元荣耀MagicBook 14/15、Pro锐龙版售价一览：到手3799元起

未来五年如何发展？这些头部城市使用了这样的关键词

车家号|为何有那么多好车，叫好却不叫座？，中国自主品牌

张一山|预感会扑街!张一山方回应演技争议张一山:我也有演不好的时候

黄晓明|谍战剧《潜伏者》将播，万茜蒋欣两大女神主演，黄晓明演男主

中国新闻网|广东新增境外输入确诊病例3例和无症状感染者8例

潇湘大视野|所有受害者接受病毒检测，有阳性！印度客机事故2人新冠检测阳性

NVIDIA|NVIDIA最强光追演示Marbles开放下载：RTX 3080/3090来战

『读历史』南宋为何没被金国灭了？“中兴四将”战斗力有多强悍？，岳飞死后