如何确保数据与人工智能的完整性?

本文发自“VentureBeat”,原题为“Data and AI are keys to digital transformation – how can you ensure their integrity?”,作者Ashleigh Hollowell,经朋湖网作者王姿蝶编译整理,供业内参考 。
如果说数据是数字经济的新石油,那么人工智能(AI)就是蒸汽机 。好似石油和蒸汽机为运输提供燃料,并推动工业革命一样,掌握数据与人工智能力量的公司同时也掌握着创新关键 。
2022年,数据和人工智能为数字革命新篇章奠定基础,并为越来越多的全球公司提供动力 。那么,公司如何确保责任和道德是这些革命性技术的核心?
01
定义数据和人工智能的责任
注释者和数据标采访人员间缺少多元化样本是导致AI 偏差的最大因素之一 。
VentureBeat数据峰会的小组成员、东北大学Khoury计算机科学学院公民人工智能实验室的助理教授兼主任Saiph Savage表示,负责任的人工智能需要从具有包容性的基础工作开始做起 。
“其中要考虑的关键问题是,需要不同类型的劳动力为其进行数据标记 。”Savage在VentureBeat的数据峰会上表示,假设工人仅来自纽约,那么,其与来自农村地区的工人信息标签方式就存在不同 。这取决于工人不同类型的经历和不同类型的偏见 。”
据行业专家解释,当今生产中的大量AI模型需要带注释、标记的数据来学习,用以增强AI的智能,并最终增强机器整体能力 。
能够支持这一点的技术很复杂,其中包括自然语言处理 (NLP)、计算机视觉和情感分析等,而这些技术的复杂性将决定训练人工智能的误差范围 。
研究表明,即使是著名的NLP语言模型中也包含种族、宗教、性别和职业偏见 。同样,在研究人员所记录的计算机视觉算法中的偏见证据显示,这些模型会自动从在线刻板地描绘人群(按种族、性别、体重等)的数据中学习到偏见,即使是情绪分析模型也面临同样的挑战 。
全球数据标签平台Toloka AI的数据峰会小组成员兼首席执行官Olga Megorskaya认为,负责任的人工智能很重要,但是,它只有在可操作的情况下才能发挥作用 。面向企业时,负责任人工智能需要随时监控生产中部署的模型质量及人工智能决策来源 。用户需要了解模型训练数据,并根据模型运行的上下文来对其不断进行更新 。因此,负责任的人工智能意味着需要负责任地对待训练人工智能模型的幕后行动人,而这也是现阶段许多研究人员和大学密切合作的地方 。
02
可解释性和透明度
如果负责任的人工智能具有可操作性,那么人工智能背后的可解释性和透明度与信息情绪同样重要 。这些信息情绪将取决于处理数据的注释员和标签商以及使用Toloka等服务的公司客户 。
Toloka自2014年启动起,便将自己定位于众包平台和微任务处理项目,即从全球范围寻找不同的个人,用以快速标记大量数据,然后用于机器学习和改进搜索算法 。
在过去八年间,Toloka已然扩张,现阶段,该项目拥有来自全球100多个国家的数据注释和标签的20多万用户 。同时,Toloka还开发了工具来帮助检测数据集和工具中的偏差,这些工具能够快速反馈可能会影响请求公司接口、项目或工具等与标记项目有关的问题 。此外,Toloka还与Savage工作的东北大学Khoury计算机科学学院的Civic AI实验室中的研究人员存在密切合作 。
Megorskaya表示,人工智能和数据标签市场的公司应该努力实现透明度和可解释性,这将“符合工人的利益,也符合企业的利益,使其成为每个人都能从共同发展中获得优势的双赢局面 。”

  1. Megorskaya建议企业保持对以下内容的调整,以确保内部和外部的透明度和可解释性:
  2. 1、不断调整人工智能培训的数据,使用能够反映当前的现实生活情况的数据 。
  3. 2、衡量模型质量,并使用这些信息来构建模型质量指标,用以跟踪改进超时性能 。
  4. 3、保持灵活度,将透明度视为数据标签人在进行注释时应遵循的可见性准则 。
  5. 4、保证反馈易于访问,并优先处理 。
例如,Toloka的平台提供了对可用任务的可见性以及为从事这项工作的标签工提供出指南,确保进行标签的工人和公司能够进行直接、快速的反馈循环 。如果需要调整标签规则或指南,其就可以在短时间内进行更改 。而这一标准,为标签团队提供了空间,让他们能够以更统一、准确及更新的方式处理数据标签过程的其余部分,用以人为本的方法解决可能出现的偏见留出空间 。


推荐阅读