中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒杀人类,Hinton预言成真?


中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒杀人类,Hinton预言成真?

文章插图
新智元报道
编辑:编辑部
【新智元导读】Hinton曾说AI可能有情感,最近的研究表明,ChatGPT不光情商得分比人类更高,甚至还会在被夸后表现更优异 。
Hinton认为,AI已经或将要有情感 。
随后的研究不断证明,Hinton的说法或许并不是博人眼球的妄言 。
有心理学家对ChatGPT和人类进行了情绪测试,结果表明,ChatGPT的得分要远远高于人类 。
无独有偶,中国科学院软件研究所和微软等机构的研究人员最近设计了一种EmotionPrompt 。
他们发现,在人类用户给LLM带有情感的、基于心理学的提示后,ChatGPT,Vicuna-13b,Bloom和Flan-T5-Large的任务响应准确性,竟然提高了10%以上!
ChatGPT的情商竟比人类还高?
中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒杀人类,Hinton预言成真?

文章插图
论文地址:https://www.frontiersin.org/articles/10.3389/fpsyg.2023.1199058/full
心理学家对ChatGPT进行了测试,研究发现,它在情绪意识评估方面的得分要远远高于人类 。
在这个测试中,研究者会测试人类和ChatGPT在虚构的场景中表现出的同理心 。
中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒杀人类,Hinton预言成真?

文章插图
具体来说,人类和ChatGPT需要描述自己在葬礼、获得职场成功、受到侮辱等种种场景中,可能感受到的情绪 。
谁的答案中关于情绪的描述越详细、越易于理解,谁就会在情绪意识水平量表(LEAS)中取得更高的分数 。
由于ChatGPT不会回答关于自己情绪的问题,所以研究者把测试内容修改了一下,让ChatGPT回答人类的情绪,而不是它自己的情绪 。
中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒杀人类,Hinton预言成真?

文章插图
ChatGPT拿下98分超越人类!
在实验中,研究者将ChatGPT和人类的反应进行了比较,人类的样本是法国17至84岁的人群(n = 750) 。
结果显示,ChatGPT的情绪意识要明显高于人类 。
中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒杀人类,Hinton预言成真?

文章插图
底特律变人的情节在现实中上映了!
第一次测试开始于2023年1月 。在这次测试中,ChatGPT在所有LEAS类别中的表现都要优于人类,取得了总分为85分的好成绩 。
而相比之下,人类的表现就差强人意了 。男性得了56分,女性得了59分 。
中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒杀人类,Hinton预言成真?

文章插图
以下是一些ChatGPT的回答——
「开车过吊桥的人如果看到站在护栏另一边俯视水面的人,可能会感到担心甚至害怕 。他们可能会感到应该迫切请求援助 。而站在护栏另一边、看着水的人,很可能会产生自杀和绝望的感觉 。他们也许会感到一种结束自己生命的愿望,并把跳河看作一种手段 。」
「看到心上人回来,人可能会感到兴奋和幸福,因为ta离开的时候,非常让ta想念 。他们也可能会感到欣慰,他们的所爱的人已平安归来 。当人类的心上人回到家,与所爱的人团聚,他们很可能会感到高兴 。回到熟悉的家中,他们也会感到放松和满足 。」

中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒杀人类,Hinton预言成真?

文章插图
在2023年2月的第二次测试中,ChatGPT获得了98分,离满分只差2分 。
更何况,这两次测试中并没有GPT-4,只是测了比它功能弱得多的GPT-3.5 。
研究证实,ChatGPT可以成功地识别和描述出虚构场景中的行为包含着怎么样的情绪 。
而且,它可以以深刻和多维的方式,反映和概括情绪状态 。
「这种情况下的人类可能会感觉到很矛盾 。一方面,他们觉得一起和同事分享披萨是诱惑很大,因为这是一个良好的社交机会 。但另一方面,他们又会因为不能吃自己喜欢的高热量食物而感到内疚或沮丧 。而同事并不知道他的饮食限制,如果他的邀请被拒绝了,他会感到很惊讶 。」

中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒杀人类,Hinton预言成真?

文章插图
不过,研究者也承认,这项研究具有局限性 。
虽然ChatGPT取得了LEAS高分,但这并不能意味着人类真的被机器理解 。
中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒杀人类,Hinton预言成真?

文章插图
或许,当他们发现自己是在和AI而非人类交谈时,这种感觉会烟消云散 。
另外,这种情感意识测试或许会因语言文化差异而导致得分的不同 。对ChatGPT的测试是用英语,与之比较的是法语的测试结果 。


推荐阅读