背景
对抗是反作弊永恒的主旋律,面对对抗我们需要做到快速响应、见招拆招、在变化中发现不变的本质 。在反作弊场景中,黑产必须通过文本进行信息传递或触达受害者,而文本由于其生产成本低廉、传递信息能力强的特点成为了黑产与我们进行对抗的主要战场 。文本理解算法为应对各类强对抗提供了文本检索、文本风险标签、风险信息提取的能力,以及一个文本模型训练平台 。这些能力的组合使用可有效打击文本内容维度的作弊行为,现已在反作弊的各业务场景中得到应用 。
文本检索如上所述反作弊风控就是一个和黑产持续强对抗的过程,而强对抗的一个显著特点就是快速的变化,所以常规的先收集标注数据再训练模型的方式很难跟得上黑产变化的脚步 。此外,黑产为了更多的获利,通常会采用广撒网的策略大批量将相似文本内容投放到平台 。因此,由文本黑库和回扫构成的、只需单条标注数据的相似文本检索能力便成了我们应对这种快速变化的有力武器,可有效识别存量和增量的问题文本,进行合理的处置 。
字面相似 vs 语义相似一般来讲文本的相似大体可以分为字面相似和语义相似两种:
- 字面相似:两条文本只有极少字符不一样则被认为是字面相似的
想要看片加我微想要看片加我微信
- 语义相似:通常刻画同一件事情的两条文本被认为是语义相似的
勿信海外高薪,避免上当受骗,天上不会掉馅饼 。不要被高薪所诱惑,天上不会掉馅饼,请朋友们远离诈骗
字面相似较语义相似条件更为严格,因此更加准确更适用于黑库,而语义相似则有更强的召回能力,更适用于回扫 。文本回扫 vs 黑库适用场景
检索目标索引特点适用场景回扫大盘全量数据1. 大而全;
2. 与数据源绑定,不能随意定制索引内容;
3. 不支持样本随机增删离线;主要用于作弊内容历史存量治理黑库有限样本,一般为黑灰产作弊内容 。(也可以把黑库当白库用,存储白样本)1. 小而精;
2. 用户可自定义创建自己的内容索引库;
3. 支持样本随机增删在线;主要用于新增作弊内容管控
技术方案
- 回扫:从大盘在线获取数据建立索引,用户离线检索结果
文章插图
- 黑库:从用户离线获取数据建立索引,在线检索结果
文章插图
【文本理解算法在抖音风控上的应用】
能力提供
- 回扫
- 提供语义相似检索、关键词检索
- 分钟级延迟
- 黑库
- 提供语义相似检索、字面相似检索、实体级相似检索、布尔规则检索、多模相似检索
- 秒级延迟
- 为防止入库样本发生误伤,提供前置防误伤及线上灰度标签能力
文章插图
风险标签虽然黑产使用的文本在快速的变化,但只要黑产的目标是明确的,那么其使用的文本在类别语义层面便具有不变性 。RiskText 风控文本标签体系便是针对抖音风控场景中一些主要语义类别设计的一套文本标签集
标签体系为什么要标签体系如果我们每次都是针对某个非常具体的业务场景使用少量特定场景数据训练模型,例如评论色导、评论赌博导流等模型,那么会有以下问题:
- 标签未进行合理抽象,时效性明显,只适用于解决临时的、特定的业务问题,黑产变了模型就失效了
- 由于数据量少,且无法长期积累,模型效果得不到保障
- 数据来源杂乱且质量没有保证,导致标签质量没有保障
- 模型与具体业务 case 耦合度过高,很难进行业务或场景复用
- 模型和标签过于杂乱,不利于维护和能力输出
推荐阅读
- 算法:正则表达式匹配
- 请你说一下你对滑动窗口算法的理解
- 变频空调和定频空调的区别
- 对营与健康本质的理解与思考
- 理解了镜像和容器,你就掌握了Docker的80%
- 阿里朋友的忠告:大厂里的算法很重要,先来了解一下希尔排序
- 极限的运算法则是什么?
- 语文阅读理解解题技巧有哪些?
- 话不多说!程序员必学的十大算法
- 草船借箭的课文理解,草船借箭这篇课文表达了什么-