人工智能|金耀辉/季卫东:AI数据给人“贴标签”,利还是弊?|148期对话


【导读】如果有人故意攻击算法的漏洞 , 导致算法瘫痪 , 法律应当如何设定规则?AI数据给人“贴标签” , 将是未来法治中存在的最大陷阱?本周三(7月8日)晚 , 在第148期文汇讲堂《AI的权利与义务 , 人类说了算?》上 , 16位现场听众和近300名zoom会议室在线听友聆听了季卫东教授逻辑缜密的演讲 , 及其与金耀辉教授分别站台“人类”与“AI”的激情辩论 。
本场讲座由上海市法学会东方法学讲堂和文汇讲堂共同举办 , 以在线直播和在场互动的新形式呈现 。 此篇分享对话 。
约束操控者行为 , 人工智能立法为技术开发等设立法律底线

金耀辉:首先 , 从机器或人工智能技术工程师的角度来说 , 我绝对不敢挑战人类!但是目前 , 人类对人工智能存在许多误区 。 历史上 , “人工智能”一词首次出现在1956年的达特茅斯会议上 , 九年后 , 获得图灵奖和诺贝尔经济学奖的人工智能先驱 , 同时也是中国科学院的外籍院士Herbert Simon预言 , 20年后人工智能就可以取代人类做任何事 。 可是直到1985年 , 人们还都不了解人工智能 。 并且从技术角度看 , 目前的人工智能其实远未达到科幻电影中描述的“天网”等先进程度 。 那么 , 我们现在为何要未雨绸缪地讨论对人工智能的限制问题呢?约束太多不仅束缚了人工智能的发展 , 也给工程师增加了负担 。
事实上 , 与其说约束机器人 , 不如说约束机器人背后的操作者 。 季老师刚才提到的所有人工智能做的坏事 , 其实不是机器做的 , 而是控制机器的人做的 。 法律赋予人类权力的同时 , 也同样约束人类活动 。 所以 , 对人工智能的立法正是为了约束操控机器人的人 , 为技术开发、数据应用等行为设立法律底线 。

季卫东:金老师提出的两个观点非常重要 。 第一 , 人工智能有其发展过程 。 眼下“人工智能热”是因为机器深度学习、计算机能力大幅提高、量子计算机与电商数据的出现 , 导致人工智能变得越来越现实 。 但人工智能想要取代人类还是很遥远的构想 , 因为在人类看来容易的事 , 人工智能要做却不简单 。 最重要的是 , 人类拥有感情 , 根据直觉判断事物 , 但人工智能将所有东西都变成了计算程序 , 这一过程非常漫长且复杂 。 第二 , 我们应当给人工智能留点发展空间 。 我非常赞同这一看法 , 这就是为何我提出 , 不能只强调硬法之治 , 而应结合软法和硬法 , 为人工智能提供原则性的指引方向 , 但不要过于匆忙地设立具体的法律规则来约束其发展 。 包括金教授提到的数据问题 , 如果过分强调个人信息和隐私保护 , 就会束缚人工智能的发展 。 所以 , 从这两个角度看 , 不能一味强调人工智能的治理 , 要注意技术规格、代码框与法律法规之间的适当平衡 。 否则人工智能就没有发展的余地了 。

金老师还提到机器人的主体资格问题 , 也很重要 。 他说最后决定机器行为的不是人工智能 , 而是设计算法的人 , 因此责任在人不在机 。 这也就涉及到人工智能专家与法律专家的关系了 。 包括如何规范电脑工程师的行为 , 他们对技术问题的理解又是怎么样的 。 此时 , 法学研究者、法律从业者与电脑工程师、人工智能专家之间的对话就显得尤为重要 。
人工智能|金耀辉/季卫东:AI数据给人“贴标签”,利还是弊?|148期对话
本文插图

上海交大电信学院长聘教授金耀辉(辉)对话上海交大文科资深教授季卫东(左)
自动驾驶事故暴露人工智能三大问题 , 追责成难题
金耀辉:新技术的出现必然会带来挑战 , 汽车刚发明时也面临同样的问题 , 人类拥有许多可以借鉴的经验 。 以自动驾驶技术例 , 自动驾驶通过摄像头来判断交通标识 。 国外曾做过一个有趣的实验 , 在交通信号上稍微增加一些较小的扰动 , 比如噪音的照片 。 人对这些照片不会产生任何误解 , 但人工智能的算法在这方面存在弱点 , 会产生错误判断 。 假设有人故意攻击算法的漏洞 , 导致算法瘫痪 , 这种情况下 , 法律应当如何设定规则?

季卫东:我认为汽车发明与自动驾驶这两者面临的问题并不相同 。 一般汽车在行驶中的责任主体非常明确 , 谁开车谁负责 。 但自动驾驶情况下该由谁负责?如果说这是制造厂商的问题 , 但其实故障起因于软件 , 应该追究算法设计者或软件供应商的责任 。 但若有人恶意攻击了自动驾驶程序、恶意修改了算法 , 又该如何判断责任呢?再者 , 出现事故应该找谁赔偿?按照《产品质量法》 , 汽车质量问题可以追究汽车制造商的产品责任 , 但自动驾驶的情况就比较麻烦了 , 因为它涉及多种责任 。 制造商可以对汽车质量负责 , 但对自动驾驶行为不负责 。

对于金老师提出的如果有人恶意修改程序或者对象物的微妙变化导致人工智能识别错误 , 这说明人工智能系统存在固有弱点 。 人能够依靠直觉进行判断 , 因为人自出生起就会逐渐形成一个常识体系 , 而人工智能无法做到 , 因此无法在模糊情况下进行适当的判断 。 一般而言 , 人工智能存在三大问题:一是无法形成一个庞大的、永无止境的常识库 , 只能尽可能地逼近这一状态 。 二是精确度越来越高时 , 人工智能的算法不可解释 , 我们不知道它是如何运算出来的 。 三是人工智能无法理解语言的含义 , 只能对程序中存在的算法进行运算 , 不能让符号落地 。 换句话说 , 即便人工智能系统说“爱你” , 你也不知道它是否真心 , 因为他并不懂语言的真正涵义 。
人工智能|金耀辉/季卫东:AI数据给人“贴标签”,利还是弊?|148期对话
本文插图

自动驾驶事故涉及多种责任 , 追责是难题
人工智能无法理解人类语言 , 需要给予具体指示才能接近人的判断

金耀辉:这一波的人工智能学习算法为何如此厉害?因为深度学习这一算法的发明 。 当然 , 深度学习也存在季老师提到的算法黑箱的问题 。 我们工程师更多的是讨论解决什么问题 。 我们最近也在做一些评估 , 人类如何进行绩效评估?法官、检察官、教师等职业通过工作记录进行绩效评估 , 例如此次讲座也是一次社会贡献的评估 。 对机器而言 , 它通过log日志记录工作内容 。 在机器自动化的过程中 , 我们首先要做的是完整地保留日志 , 然后在机器上市前 , 要把整个算法提交上去 。
在人工智能发展的第二波时期 , “符号学派”即专家系统曾经风靡一时 , 其代表人物Doug Lanet在1980年代开发的Cyc , 试图用逻辑规则来代替我们对这个世界的理解编码 。 然而 , 1998年 , Doug甚至发出一声哀叹“人工智能甚至连人类最基本的常识都不具备” 。 今天 , 所有人工智能行业从业者依然会有同样的感受 , 人工智能无法理解自然语言 。 例如 , 我说“中国足球队谁也赢不了”和“中国乒乓球队谁也赢不了 。 ”相信所有人都能理解这两句话是截然不同的含义 , 但Siri和百度语音能理解吗?它们只能把这句语音翻译成中文或英文 , 但它们不可能理解背后的含义 , 因为它们不懂常识 。

另一个问题就是概率的不确定性 。 我们生活的世界永远是不确定性的世界 , 那么 , 我们该如何把握确定性量化呢?首先我承认 , 我们的统计是经过大量数据的 , 必然存在不确定性的问题 , 我们的研究应该表明算法的不确定性、不确定程度有多少 , 不确定度在何处 , 这是一个被量化的值 。 从输出到最后的决策 , 无论是自动化的 , 还是人为干预的 , 都会被记录下来 。 然后 , 我们会对这些日志进行审计并还原决策做出过程 。 所以 , 我们的研究应该关注不确定性的量化问题 。
这在人类世界也是如此 。 例如 , 不同的法官对同样的案情会做出不同的判决结果 , 因为每个法官都有不同的“自由心证” 。 但若结果之间出现了较大的差距 , 在计算机领域称之为“异常” , 这时就要考虑法官本身是否存在问题 。 因此 , 针对于人工智能的立法 , 是否也应考虑人工智能算法本身的特点?
人工智能|金耀辉/季卫东:AI数据给人“贴标签”,利还是弊?|148期对话
本文插图

人工智能只能翻译 , 但不能理解人类语言背后的含义

季卫东:金老师谈到的两个问题对法律人来说很有意思 , 也很令人费解 。 第一 , 人工智能无法建立一个常识体系 。 那么 , 如何才能让它做出判断呢?首先要确定一定的概率 , 然后进行计算 。 但此时这个数据就会存在问题 。 因为法律适用需要一个确定的、明确的判断 , 不能说正确率有多少 , 但调解一定程度上可以 。 第二 , 从最简单的自动驾驶例子可能更能理解人工智能的特点 。 自动驾驶可以严格按照道路的限速规定自动行驶 。 如果我们运用人工智能进行交通执法 , 似乎也很简单 , 只要输入交通规则就可以了 , 交警也是根据交规判断汽车是否超速 。 然而 , 即便交通规则的适用也具有一定的灵活性 , 需要执法者进行裁量 。 如驾驶速度超出一、两公里 , 或者汽车在绿灯闪烁时加速冲过马路 , 交警并不会做出惩罚 。 这就增加了智能软件设计的复杂程序 。

美国曾做过一项实验 , 将学生分成三组 , 第一组严格按法律规则编程 , 第二组参照法律条文编程序 , 第三组给出关于概率、变动幅度等具体指示进行编程 。 最终 , 第一组的结果非常机械 , 几乎所有人都将面临罚单 。 第二组的结果非常多元 , 而第三组则给出了具体的指示 , 例如超速超过30%就要面临罚单 。 可见 , 若人工智能专家能够给予具体的指示 , 可能会使人工智能软件更加接近人的判断 。
AI数据给人“贴标签” , 或是未来法治中存在的最大陷阱
金耀辉:季老师提到了一个非常好的问题 , 实际上 , 自动驾驶与环境有关 。 我们肯定希望自动驾驶软件能够像人类一样有温度 , 根据外界的环境变化而调整 。 但环境依赖的是数据 , 所以回过头来 , 我们还是要谈谈数据本身的问题 。

人的听觉、嗅觉、直觉等感受能力很强也很多 , 可以通过这些能力做出决策 。 而机器一般根据数据做出判断 。 因此数据很重要 , 并且越多越好 , 但作为人工智能的数据并不可能完整地收集起来 , 所以一定是在非完全的数据输入情况下做出的决策 , 此时就要有一个取舍 。 如果单从算法角度考虑 , 我们需要判断这些数据的关键因素是否缺失 。 例如 , 交通信号灯的重要信息如果缺失 , 那自动驾驶的判断结果必然没用 。 又如判断某人是否怀孕的前提信息要确认这是位女性 。 这些是不能丢失的信息 。
但反过来又要思考 , 这些信息会不会导致隐私的泄露?刚才提到 , 某些视频网站会根据用户的喜好推荐视频 , 这方面涉及的数据共享与保护的问题是目前上海正在研究的 。 政府希望通过数字经济 , 共享数据 , 以刺激更多的中小企业进行创新 。 但这一过程中可能会侵犯用户隐私或商业秘密 。 未来 , 法律界与技术界要共同研究这一问题的解决方案 , 实现数据共享与保护的双重目标 。

另一个问题是 , 网络推荐背后的算法实际上是在给人物打标签 。 例如 , 我订机票时 , 航空公司会推荐比较准时、可以取消的航班 , 因为我身上已有这样的标签 。 贴标签的过程可以部分避免用户的完整数据被交换 , 部分解决了隐私保护问题 。 但是利用其他厂商的生成标签可能会导致推荐算法的不确定性更加无法量化 。 所以学术界也在探索差分隐私或联邦学习的新型算法 。
人工智能|金耀辉/季卫东:AI数据给人“贴标签”,利还是弊?|148期对话
本文插图

本场讲座以在线直播和在场互动的形式同步呈现
季卫东:金老师关于“贴标签”的说法很精彩 。 刑法学中就有一个标签理论 , 意思是 , 一旦社会给你贴上某个标签 , 旁人就会不断地用这种眼光审视你 。 有点类似中国古代的成语“疑人偷斧” , 导致你处于一个不利的状态 。 反过来 , 若你意识到社会给你贴了这个标签 , 你就会朝着这个方向走 , 最后就真是变成了标签上的一样 , 即预言的自我实现 。

大家可能都有这样的体会 , 每次打开电脑都会弹出很多广告 , 这就是广告软件给你贴的标签 , 它并未把你当作一个独立的个人 , 而是某个类型 。 它把不同的人分成不同的类型 , 根据类型把握你的需求 , 并决定如何对待你 。 这完全违背了以每个人平等而自由的人格为基础的现代法治逻辑 。
贴标签的另一个问题是 , 你可能永远贴着标签 。 例如 , 监狱的口号是“改造自己、重新做人” , “重新做人”就意味着不能永远贴着这个标签 , 个人享有删除权、忘却权 , 否则如何回归社会、重新做人?但在数字化社会 , 这些标签存在于数据库 , 被贴标签的人根本不知道 , 只觉得自己总是碰壁、受到歧视 。 人工智能对大数据的处理使得每一个人都被贴上标签 , 它们把个体进行归类处理 , 成为集体框架里的一个组成部分 , 然而此时我们依然认为自己是独立的个体 。 这是智能网络化社会的治理中我们面临的最大挑战 , 也是未来法治中可能存在的最大陷阱 。 当然 , 这也是大数据和人工智能时代向现代法律体系提出一个根本问题 。

【人工智能|金耀辉/季卫东:AI数据给人“贴标签”,利还是弊?|148期对话】金耀辉:对于季老师刚才的反驳 , 我想回应两点 。 第一 , 贴标签的目的是为了防止个人的所有信息被泄露 , 这是根本目的 。 第二 , 好的算法应该具有时效性 , 比如怀孕只有十个月 , 十个月后就不应该再给孕妇贴标签了 。 所以 , 算法本身也需要改进 。
季卫东:我们知道阿里巴巴的芝麻信用是五年数据、五年有效 , 但现在失信联合惩戒机制探讨认为肯定超过五年 , 因为数据在其他地方都在流转 , 这个问题怎么解决 , 下一次我们再私聊 。
(整编:袁琭璐)
相关链接:
季卫东:代码与法律双行 , AI 社会呼唤制度创新 |148期主讲
作者:季卫东、金耀辉
现场拍摄:王少君、袁琭璐
编辑:袁琭璐
*文汇独家稿件 , 转载请注明出处 。


    推荐阅读