AI如何反低俗?今日头条推内容检测工具“灵犬”3.0,首次公开其技术原理
安妮 发自 北三环西路
男默女泪、不看不是中国人、看完惊呆、身份惊人、不看吃亏、癌症凶手……这些标题党文章的惯用词汇 , 还熟悉吗 。
昨天(7月30日) , 今日头条发布内容健康度检测工具“灵犬3.0” , 不仅能够识别这些低俗内容、暴力内容和标题党 , 还能支持图片识别功能 。
今日头条表示 , 在文字识别领域 , 灵犬3.0的检测准确率从此前的85% , 上升至91% 。 图像识别领域 , 在数据、模型和计算力方面也做了针对性优化 。
这一次 , 字节跳动AI实验室首次揭秘其反低俗系统概况 , 以及相应的技术原理 。
----AI如何反低俗?今日头条推内容检测工具“灵犬”3.0 , 首次公开其技术原理//----[ http://www.caoding.cn]
改进了哪里?
这个叫作灵犬的小程序 , 可以从微信小程序“灵犬反低俗助手”或今日头条内打开 。
所以 , 和去年5月的灵犬2.0小工具相比 , 3.0版的灵犬改进了不少 。
先是界面有变 。 此前的检测界面 , 分为反色情低俗、反暴力谩骂和反标题党三类 , 新版将这三者合为一体 , 统一成了文本识别 。
----AI如何反低俗?今日头条推内容检测工具“灵犬”3.0 , 首次公开其技术原理//----[ http://www.caoding.cn]
△
左:3.0版灵犬界面;右:2.0版灵犬界面
用户只需输入一段文字或文章链接 , 就能检测内容健康指数 , 系统返回一个鉴定结果 。 包括是否可以获得算法推荐 , 是否需要引入人工判断等 。
其次 , 新系统可识别图片 , 上传图片或其连接 , 就能一键检测图片的健康指数 。
今日头条表示 , 自去年3月推出一代灵犬开始 , 到今年6月为止 , 灵犬反低俗助手的使用人次已经超过了300万 。
BERT加持
字节跳动人工智能实验室总监王长虎表示 , 和一般的采用分词技术+词表技术文本识别方案不同 , 灵犬采用NLP技术 。
----AI如何反低俗?今日头条推内容检测工具“灵犬”3.0 , 首次公开其技术原理//----[ http://www.caoding.cn]
相比于上一代 , 灵犬每更新一次 , 就进化一次 。
王长虎表示 , 1.0版采用词向量+CNN技术 , 训练数据集包含350万数据样本 , 对随机样本的预测准确率达到79% 。
到了2.0版 , 技术就变成了LSTM(长短时记忆)+注意力机制 , 前者擅长对序列进行建模 , 对长句的识别效果好 , 后者帮助对句子全局有一定了解 。 此时训练数据集包含840万数据样本 , 准确率提升至85% 。
王长虎表示 , 3.0版灵犬同时应用了BERT和半监督技术 , 并且在此基础上使用了专门的中文语料 , 在不牺牲效果的情况调整了模型结构 , 使得计算效率能达到实用水平 。
这一代“灵犬”训练数据集总量是1.2个T , 相当于20倍百度百科或100倍维基百科的数据总量 , 包含920万个样本 , 准确率提升至91% 。
----AI如何反低俗?今日头条推内容检测工具“灵犬”3.0 , 首次公开其技术原理//----[ http://www.caoding.cn]
量子位此前报道过 , 说BERT是2018年最火的NLP模型一点也不为过 , 它甚至被称为NLP新时代的开端 。
它由Google推出 , 全称是Bidirectional Encoder Representations from Transformers , 意思是来自Transformer的双向编码器表示 , 也是一种预训练语言表示的方法 。
王长虎表示 , 最新图片识别和检测功能的推出 , 背后也曾面临3个技术难点 。
一个图像多尺寸问题 , 解决方式就是多桶模型 , 每个桶的模型处理不同尺寸的数据 。 这样 , 既不会增加模型运算的耗时 , 还能提升准确率 。
二是图像多尺度问题 , 图片中的人像的尺寸和比例不同 , 因此研究人员构建了特征金字塔 。
三是小目标问题 , 也就是说低俗内容只有一点点 。 今日头条采用分割辅助分类网络方案 , 把低俗位置抠出来 , 结合区域信息整体分析 , 解决小目标问题 。
----AI如何反低俗?今日头条推内容检测工具“灵犬”3.0 , 首次公开其技术原理//----[ http://www.caoding.cn]
AI内容监管员
今日头条表示 , 反低俗系统从2012年就开始建设了 。
从创立开始 , 已经把包括反低俗在内的内容安全 , 放在公司最高优先级队列 。 成立之初 , 已经专门设有审核团队 , 当时研发所有客户端、后端、算法的同学一共不到40人 。
王长虎表示 , 灵犬只是今日头条反低俗系统一个检测的窗口 , 今日头条的反低俗不止于灵犬 , 还有类似的数百个模型 , 解决低俗低质、暴力等内容 , 还有近万人专业内容审核团队 。
----AI如何反低俗?今日头条推内容检测工具“灵犬”3.0 , 首次公开其技术原理//----[ http://www.caoding.cn]
AI代替部分内容审核员的工作 , 不只今日头条 , 其他内容平台也都推出过类似产品 。
今年6月 , 微信上线了一款叫“珊瑚内容安全助手”的小程序 , 只要面向公众号内容运营者和小程序开发者 , 任何人可一键识别内容和产品是否安全 , 是否可以通过检测 。
小程序显示 , 目前能鉴定图片和文字内容 , 后续还将陆续上线音频鉴别和视频鉴别 。
再比如想用AI打造智能社区的知乎 , 去年4月上线了一款专治“答非所问”的机器人瓦力 , 用机器学习去理解问题下的内容 , 以快速处理答非所问和辱骂、贴标签等不友善内容 , 还能识别阴阳怪气(反讽)的回答 。
不过效果也得两面看 , 上线一年多 , 已经有不少用户觉得瓦力的检测效果略感智障 , 出现了识别不准、莫名折叠回答的情况 。
----AI如何反低俗?今日头条推内容检测工具“灵犬”3.0 , 首次公开其技术原理//----[ http://www.caoding.cn]
当然 , 也少不了不少社交平台的内容检测玩家 。
Facebook , 一个越活用户近20亿的社交平台 , 每天面临着C端用户贡献的各式各样的图片和文字信息 , 检测这些内容是否合规 , 还靠AI 。
它们靠一个名为Rosetta的机器学习系统 , 能实时从10亿图片和视频中提取文字 , 识别文字包含的信息 , 检测内容的安全性 。
AI已经开始大面积内容监管人员 , 节约了大量人力 , 但又何尝不是另外一场由人力堆砌的工作呢?
“灵犬”们还需进化 , 直到不再需要这么多人的那天 。
推荐阅读
- 三国杀:卡牌是否应该“界限突破”?且看这版「界闪电」设计如何
- 水花、格林加维金斯,能吹响勇士反攻的号角吗?能否再创5年3冠?
- 裴秀智无ps照很真实,穿纱裙上《Vogue》,反而更美好
- 颜值在线的它,东风风行T5L表现如何?网友:“纸老虎”
- 电机正转与反转的几种解决方法(附电路图的分析)
- 花高价买了电动车头盔,如何做好头盔防盗,网友出奇招
- 96岁大爷卖房儿女反对,55岁保姆亮“陪睡”记录:我们是事实夫妻
- 王毅王毅谈病毒溯源调查:反对任何“有罪推定”
- 外行领导内行,关键是要看你如何去领导
- 如何选择小型SUV?开得好,用得好,价格好,最低6万,最高10万,到底便宜不便宜?
