基于算法的业务或者说AI的应用在这几年发展得很快 。但是,在实际应用的场景中,我们经常会遇到一些非常奇怪的偏差现象 。例如,Facebook将黑人标记为灵长类动物、城市图像识别系统将公交车上的董明珠形象广告识别为闯红灯的人等 。算法系统出现偏差的原因有很多 。本篇博客将总结在数据获取相关方面可能导致模型出现偏差的原因 。
文章插图
【机器学习算法 AI系统中导致偏差的原因总结】一个典型的AI系统(本文不区分算法和AI,虽然实际中二者的确不一样)的工作过程包括:
- 收集数据
- 标记数据
- 数据预处理
- 模型训练和测试
- 模型上线
- 一、数据收集产生的偏差
- 二、标记数据过程产生的偏差
- 三、数据预处理产生的偏差
- 四、总结
一、数据收集产生的偏差一般来说,这是由于数据收集过程中由于一些错误的认知或者忽视,导致一开始就是从一个“特别的”地方收集了数据 。最后导致了问题的产生 。前几年,AICon北京站中,小米的工程师分享了一个案例就是这个原因 。大意是小米相机想推出一个“魔法换天”的功能 。于是从数据收集开始准备训练模型 。但是数据收集的过程中忽略了大多数用户并不是专业的摄影师,拍照的角度五花八门,也不规则 。但是收集的数据确是比较准确的摄影师的作品 。这最终导致模型只认识质量很高的照片,最终实际应用效果非常差 。这就是典型的数据收集导致的偏差问题 。在实际应用中,我们需要尽可能针对应用场景收集符合实际业务的数据,避免产生意想不到的结果 。
文章插图
此外,除了一开始收集产生的偏差 。有时候抽样选择也会导致偏差 。抽样选择是数据收集的一个重要的过程 。很多时候并不是所有的原始数据都会被使用,数据抽样是一个重要的步骤 。但是,抽样一般容易产生偏差 。例如,在一个浅色皮肤较多的照片中,如果抽样对深色皮肤的图像不够重视,很容易出现最终的结果都是浅色人的图像,进而可能会产生Facebook那样的错误 。
二、标记数据过程产生的偏差收集完数据之后,大多数的应用需要对数据进行标注 。尤其是在分类预测的任务中,需要对数据进行正确的划分,才能有效地训练模型 。在这个过程也是很容易出错的 。当前,在工业界,除了寻找公开的高质量数据集进行模型训练外,也会有很多企业尝试自己标注数据来适应业务的发展 。然而这个时候出现偏差的可能也很高 。依然是小米的例子,在换天这样的应用中,一个很重要的步骤是需要将背景中天空的轮廓识别出来 。最开始标注数据的时候选择的标注工具和标注人员都是很粗略的 。导致天空轮廓标记很粗糙 。尤其是在有树叶这种场景下,边缘的模糊导致标记结果非常粗糙 。在实际训练中也就产生了很大的问题 。因此,数据标注如果要自己完成,一定需要注意质量的问题 。
文章插图
数据标记可能的偏差原因:
- 标签的差异(例如男性和男人,其实是一种标签,但是给了两种单词)
- 标注者思想的差异:包括标注者自身的文化、认知、信仰等导致的差异
- 标注者记忆的差异:这种情况主要发生在一些需要标注者记忆的情况中,例如一些问卷或者是认知识别的标注,可能标注者会出现前后不一致的情况
推荐阅读
- HTML基础学习教程,轻松学会网页制作
- SpringBoot开发的物联网通信平台系统,值得收藏学习
- 字符串查找 之 KMP算法
- Adobe Premiere Pro视频编辑入门到精通学习教程
- 人人都在被算法“围猎”,学会和机器相处,你准备好了吗?
- 互联网平台的“算法”被神化了
- 初中政治学习方法
- 初中文言文学习方法
- 高二英语学习方法和技巧
- 初中英语学习方法指导