钛媒体|更新、挑错、识别假新闻，MIT推出维基百科AI编辑系统

本文插图

文丨学术头条
维基百科作为任何人都可以编辑的在线百科全书，需要大量的志愿者编辑花费大量时间精力来让每一个词条保持最新。虽然志愿者编辑有很多，但要保障每天成千上万的页面及时更新，仍是一件极具挑战的任务。
不久前，麻省理工学院的研究人员推出了一种新的 AI 系统，该系统可用于自动更新在线百科全书中的任何不准确之处，从而为人类编辑们提供帮助。
麻省理工学院计算机科学和 AI 实验的博士生 Darsh Shah 说道， “维基百科的文章需要不断更新，因此需要数百人来修改每篇文章，而 AI 可以自动完成修改，这极大提高了效率。 ”
研究人员提出了一种文本系统，该系统可精确定位并替换相关维基百科句子中的特定信息，同时使用类似于人类的书写和编辑方式的语言。
当人们在界面输入带有更新信息的非结构化句子时， AI 会在维基百科中搜索正确的页面和过时的信息，然后以类似于人类的语言风格呈现内容。
此前也存在许多其他可以自动进行维基百科编辑的机器人，但 Shah 说道， “这些工具更多的是基于规则，将一些狭义的信息放入预定义的模版中，然而编辑的任务更多的是需要对两个句子中相互矛盾的部分进行推理，然后生成连贯的文本句子。研究人员的模型解决了这个问题，通过输入一条非结构化的信息，模型以人性化的方式自动修改句子。 ”
AI 识别矛盾信息识别两个单独的句子之间的矛盾信息，并将它们融合在一起，这对于人类而言是一项十分容易的任务，但对于机器学习而言却是一项新颖的任务。
例如原始的句子：“基金 A 认为活跃运营公司中的 42 种少数股权中有 28 种对集团特别重要” ，而最新的信息则是：“基金 A 认为 43 个少数股权中有 23 个意义重大” 。
根据这两个句子，系统将首先找到有关 “基金 A” 的相关维基百科文本，然而自动去除过时的数字 28 和 42 ，并用新的数字 23 和 43 替换它们。

本文插图

一般来说，该系统在包含句子对的流行数据集上进行训练，其中一个句子是声明，另一个是相关的维基百科的句子。每对都用三种方式进行标记：同意，表示句子匹配；不同意，表示存在矛盾的信息；中性，表示没有足够的信息可用于任何一个标签。
系统的目标是修改所有过时的句子，达到相应的要求，也要使所有不一致的句子对都达到 “同意” 。因此，这就需要使用单独的模型来产生所需的输出。
该模型是事实检查分类器，预先将每个句子对标记为 “同意”、“不同意” 或 “中立” ，重点关注 “不同意” 的句子对。与分类器一起运行的是一个自定义的 “中性屏蔽器” 模块，该模块可识别过时句子中的哪些词与声明中的句子相矛盾。它在过时的句子上创建了一个二进制 “掩码” ，其中 0 放在最有可能需要删除的单词上，而 1 放在保留的单词上。
屏蔽之后，在过时的句子处使用两个编码器 - 解码器框架，对需要删除的单词（用 0 覆盖的单词）结合不同的信息来融合填补。
该模型与其他几种传统的文本生成方法相比，在更新事实信息时更加准确，其输出与人类写作更加相似。在一项测试中，研究人员根据模型的输出句子包含事实更新和匹配人类语法的程度对该模型进行了评分（从 1 到 5），该模型的事实更新平均得到达到了 4 ，语法匹配得分为 3.85 ，高于了其他所有传统方法。
研究人员希望未来 AI 能够自动完成整个过程，也就意味着它可以在网上搜索某个相关主题的最新新闻，并替换文本，自动化更新维基百科上过时的信息。
扩充数据集，消除误差该研究还表明，当训练 “假新闻” 的检测器时，该系统可用于增强数据集，以消除偏见。
“假新闻” 是一种包含虚假信息的宣传方式，旨在博人眼球，误导读者或是引导公众舆论。这些部分检测器在同意 - 不同意对的数据集上进行训练，匹配给定的证据来验证真假新闻。在这些句子对中，声明可将某些信息与维基百科上的支持 “证据” 相比较，模型经过训练，通过反驳证据，将句子标记为 “假” ，从而帮助识别假新闻。
但数据集往往带有意想不到的偏差。 Shah 说道， “在训练过程中，模型按照人类的书面语言要求将某些语言标记为假例，而不必过多依赖相应的证据语句。这会降低模型在评估实际示例中的准确性，因为它不执行事实检查。 ”
因此，研究人员使用了相同删除和融合技术，来平衡数据集中的不同意对，并帮助减轻偏见，在某些 “不同意” 对中，他们使用修改后的句子中的虚假信息来重新生成伪造的 “证据” 支持句子，某些短句也同时存在于 “同意” 和 “不同意” 句子中，这将使得模型分析更多的特征，得到扩充的数据集。
研究人员利用这一方法将一种流行的假新闻检测器的错误率降低了 13% 。
维基百科部署 AI 编辑早在 2015 年，维基百科就构建了一个人工智能引擎，旨在自动分析维基百科的更改。
由于任何人都可以编辑维基百科，那么任何人都可以错误地添加虚假信息，破坏站点，所以最早的维基百科建立了严格的筛选制度，阻止了很多人加入维基百科的编辑行列。
Halfaker 是维基百科的资深研究科学家，他建立了自己的 AI 引擎来识别这种破坏行为，以更友好的方式提高新手的参与度。同时他也承认， “这项服务无法捕获所有破坏行为，但它可以捕获最多的破坏。 ”
Halfaker 的项目实际上是为了增加人们对维基百科的参与，而放到 5 年后的今天，新的文本系统的出现，可自动更新维基百科的信息，极大减少了志愿编辑者的工作，编辑者也朝着被淘汰的方向行走。
机器越来越智能，机器自动化替代人类工作也越来越普遍，人类是否会被机器替代也是当下的热点话题。有人预测 AI 和机器人技术将在未来 20 年内取代我们多达 47% 的工作，但同时也有人认为 AI 将创造大量新工作。
未来的事谁都说不准，我们唯一能做的是把握当下。
【钛媒体|更新、挑错、识别假新闻，MIT推出维基百科AI编辑系统】资料来源：[1]https://www.siliconrepublic.com/machines/wikipedia-editors-ai-fake-news[2] https://www.sciencedaily.com/releases/2020/02/200212164647.htm[3]https://www.wired.com/2015/12/wikipedia-is-using-ai-to-expand-the-ranks-of-human-editors/

钛媒体|更新、挑错、识别假新闻，MIT推出维基百科AI编辑系统

推荐阅读

觉得生活无味时有哪些刺激又安全的事情可以做

顶层燃气主管道降低的问题

生肖|9月，再续前缘，旧情人心软了，3生肖再次收获挚爱，纠纠缠缠

「互联网圈内事官方」中兴通讯独立董事被曝涉性侵养女！当事人：我这辈子都不会忘！

莫红论育儿|朱茵发福明显让人认不出，被网友调侃是“大妈”，港普4F同框

「北京」北京一男子在地铁车厢内吸烟，已被行拘

电池更换|总投资超20亿元临港五年内最多新增5000台换电重卡

青年|王者荣耀：花木兰峡谷严厉对待苏烈，凯，但私底下是很温柔哟

|47岁佘诗曼扎公主头现身跟平时披发差距大，我感觉她一下就变老了

学霸|现代孔乙己：那些被北上广淹没的县城学霸

人民日报微信公号|女童穿越马路，轿车疾驶而来，被撞飞的却是他

好影天天荐|郭麒麟低调回应，郭麒麟“翻车”了？9天前上节目被知名导演炮轰

苹果发布会显示，正实现从纵向整合向横向整合蜕变

据说，今年农村这6大补贴很心动哦，不来看下你家能领取几种

穿搭|穿靴子的季节到了，美女用马丁靴搭配工装连体裤，展现酷飒之美

作文：当小学生的作文“翻车”，家长表情收不住，老师：标点引起大误会

皇城根儿胡同串子舌尖上的京城——“炒面倭瓜”

【球长社圈】骚气！丹尼-格林社交媒体晒出自己新发型视频

帅国|服务信托成增长“新动力”，高压下的信托业找到突破口了？

最新热文|向佐真的别当演员了，凭一己之力拉低整部剧颜值