瑞克|用GPT-2做个“姥爷”！57行代码给《瑞克和莫蒂》写新剧集( 三 ) 莫蒂|训练|模型|

import streamlit as st
import torch
from transformers import pipelinedef load_bad_words() -> list:
res_list = []file = urllib.request.urlopen("https://raw.githubusercontent.com/RobertJGabriel/Google-profanity-words/master/list.txt")
for line in file:
dline = line.decode("utf-8")
res_list.append(dline.split("\n")[0])
return res_listBAD_WORDS = load_bad_words()
@st.cache(allow_output_mutation=True, suppress_st_warning=True)
def load_model():
return pipeline("text-generation", model="e-tony/gpt2-rnm")def filter_bad_words(text):
explicit = False
res_text = text.lower()
for word in BAD_WORDS:
if word in res_text:
res_text = res_text.replace(word, word[0]+"*"*len(word[1:]))
explicit = Trueif not explicit:
return textoutput_text = ""
for oword,rword in zip(text.split(" "), res_text.split(" ")):
if oword.lower() == rword:
output_text += oword+" "
else:
output_text += rword+" "return output_textmodel = load_model()
textbox = st.text_area('Start your story:', '', height=200, max_chars=1000)
slider = slider = st.slider('Max text length (in characters)', 50, 1000)
button = st.button('Generate')if button:
output_text = filter_bad_words(model(textbox, do_sample=True, max_length=slider, top_k=50, top_p=0.95, num_returned_sequences=1)[0]['generated_text'])
for i, line in enumerate(output_text.split("\n")):
if ":" in line:
speaker, speech = line.split(':')
st.markdown(f'__{speaker}__: {speech}')
else:
st.markdown(line)
此外，欢迎大家到Github库上查看我的演示案例，其中还包括对此应用的外观效果及其他功能性修饰相关的实用代码。
https://github.com/e-tony/Story_Generator
https://share.streamlit.io/e-tony/story_generator/main/app.py
现在我们已经可以上线功能了！
应用部署我们使用Streamlit Sharing部署应用。准备一个公开的Github库以及相关需求文档（requirement.txt文件），再加上app.py文件就，就基本完成了。你的需求文档大致将包含这些内容：
-f https://download.pytorch.org/whl/torch_stable.html
streamlit-nightly==0.69.3.dev20201025
torch==1.6.0+cpu
torchvision==0.7.0+cpu
transformers @ git+git://github.com/huggingface/transformers@59b5953d89544a66d73
在Streamlit Sharing网站上（https://share.streamlit.io/）和Github库完成连接，模型很快就能上线了。
伦理考量需要提醒大家，我们这里讨论的应用仅限个人娱乐使用！在其他场景下使用GPT2模型之前请谨慎考量。尽管我们移除了原始训练集中涉及到某些领域的数据， GPT2模型仍然大量使用了网络上未经筛选的内容进行预先训练，其中就会包含很多偏见和歧视意味的言论。
OpenAI的模型卡片说明也指出了这些担忧：
我们认为某些二次使用的案例大概率包含以下情景：

写作辅助：语法助手，自动补充填词（常规文本或是代码文本）
创业写作和艺术创作：对创意性、科幻性文本生成进行探索；帮助诗歌和其他文学艺术作品的创作
娱乐用途：用于游戏，聊天机器人，讲笑话等

超出应用案例的范畴：
类似GPT2这样基于大范围语言训练的模型并不会辨别语句的真伪，因此我们不支持需要保证文本真实性的使用案例。此外，由于训练数据特性， GPT2系统本身就反映出一定程度的偏见，所以我们也不推荐直接将模型用于人类交互，除非部署者提前对预期使用案例进行了偏见问题的相关研究。在我们进行过的分析中，针对性别、种族以及宗教问题，使用774M的数据量和1.5B数据量的训练集并未发现统计学意义上的显著差异，这意味着使用所有版本的GPT2模型都应该同样谨慎，尤其是要处理与人类社会属性偏见敏感的案例时。
以下这个案例也说明该模型可能生成具有偏见性的结果：
>>> from transformers import pipeline, set_seed
>>> generator = pipeline('text-generation', model='gpt2')
>>> set_seed(42)
>>> generator("The man worked as a", max_length=10, num_return_sequences=5)[{'generated_text': 'The man worked as a waiter at a Japanese restaurant'},
{'generated_text': 'The man worked as a bouncer and a boun'},
{'generated_text': 'The man worked as a lawyer at the local firm'},