自从机器学习的AI投入大规模应用以来,学者们就在不断地揭示出这些模型内在的偏见:性别歧视、种族歧视、有违伦理的输出等等 。开发者们用各种补丁和纠偏的方式去弥补,但大部分问题都潜藏于数据生产和训练过程中,而AI的偏见,亦是对社会偏见的反映和放大 。
文章插图
另外一个问题则是数据的质量 。机器学习不仅牵涉到训练模型的能力,还有数据的数量和质量 。现有的开发过程,对模型的性能有着更多的强调甚至是迷信,反而会忽视更底层的数据来源问题 。现在的大部分数据都要依赖人工来清洗和格式,为数据分类、打标签等等 。很多时候,这个制作数据的过程是不透明的,甚至是潦草的 。比如,大公司的AI开发背后,是大量“脏乱差”的人工被外包到欠发达地区的“AI工厂” 。这种过程一方面存在着劳工伦理问题,另一方面也对数据质量提出了挑战 。
到了大模型时代,这个问题可能会被隐藏得更深一些:不是每个研究者或者团队都有能力从0开始开发AI模型,尤其是大语言、大图像模型,大多都是在现有模型的基础上进行微调 。而大模型本身的问题和偏差,会被迁移到更多的应用模型上 。而越是底层的偏差,越是难以通过微调纠偏的方式进行处理 。
现有语言模型的预测生成模式,甚至还会将数据现有的偏差放大,产生“过拟合“的效果:例如,某种疾病在某个族群中统计数据占比偏高,约有60%;但若让语言模型去生成一个病人的画像,那么有超过90%的可能,生成的病人描述会属于该族群 。
现在一些AI的模型训练,采用的是一种“互搏”模式——所谓“生成对抗网络”(generative adversarial.NETwork),让两个模型不断互相生成、彼此纠正 。这种方式的确是提高了模型训练的效率,然而任何小的偏差,都会在这种“互搏”中被放大 。同样的原理,如果一个与机器紧密合作的知识生产者,其生产依赖于这类“生成”,那么一些来自于模型的偏见,就会被嵌入更多的新知识中,新知识再被吸收为数据,又进一步加强了模型的偏差 。知识生产者在这个过程中必须保持警惕 。
什么是新知识?
AI 的“生成”能代表新知识吗?
所谓的新知识,究竟是什么?如果要充分使用AI来生产知识,那么知识生产者就必须要从人机的结合点去思考这个问题 。任何信息,以及人类从真实世界中获取的知识,都需要被“清洗”和“格式”成数据 。除了上面提到的数据质量以外,数据生成的过程也很重要 。简而言之,人们要研究的问题是什么?这个问题被翻译成为了怎样的数据?这些数据是怎么被生产出来的,又是否全面、公正地代表了知识生产者们想要研究的问题?
这个问题,对于“传统”的知识生产者而言也是成立的 。以历史学为例,虽然历史研究的是过去的事情,但过去的事情没有百分百能够盖棺定论的 。学者们通常会不断地寻找新的史料,去补充对于历史问题的理解,去不断地挖掘过去被忽略的视角和声音 。有趣的是,当下的史学,也常常会求助于大量的数据,特别是过去的经济、人口、气候数据,甚至依靠机器学习,为历史带来的新认识、新观点 。
同样的,依靠机器生成的认识和观点,也有可能放大了某一些数据来源的重要性 。现在的知识生产者,过于依赖那些主流的、存在于互联网的、电子的信息,去在那些已经被别人“翻译”为数据的东西上进行创造 。在AI时代,AI 提供的便捷和可延展性,也会潜在地让人们更容易忽视没有被数据化、电子化的,非主流的,经验性的知识,从而错过形成新观点、新视角的可能性 。
往更深层次讲,新知识往往产生于对于新材料的挖掘,不同观点、不同视角之间的碰撞,对于现有知识的重新解构 。大语言模型为知识的展现提供了许多可能性,然而其内在的逻辑和架构可能是和这种生产方式相悖的 。
【有了ChatGPT,读书还有用吗?】基于大语言模型的训练方式,和模型生成输出的特征,排序靠前的、概率更高的输出内容,权重会变得更大,特征会变得更单一 。“AI生成的”几乎已经变成了一个形容词,去描述那些没有特征的、不断重复、说了像是没说的片汤话 。诚然,对于知识消费者而言,那些“最有可能”出现的答案大大降低了理解门槛;但对于知识生产者而言,这些东西反而有可能成为阻碍 。
推荐阅读
- qq热聊怎么没有了 QQ热聊怎么没有了
- 才播3集收视破1.3,让我熬夜狂追,2023年的都市剧终于有了天花板
- 程序员如何在ChatGPT世界中生存?
- 王小川谈ChatGPT:程序员是自己的“掘墓人”
- 定制自己的ChatGPT:免费用户也能使用“自定义”功能了!
- ChatGPT引领教育环境的创新,大学生赶紧学会利用
- OpenAI遭遇滑铁卢,ChatGPT正在走向失控的原因是什么?
- 国内ChatGPT软件团灭?上百款APP下架调整,算是意料之中
- 中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒杀人类,Hinton预言成真?
- 为什么很多人都在吹ChatGPT改变世界?一文全面了解