CSDN|可以“作为医生”的 GPT-3,究竟是炒作还是名副其实?


CSDN|可以“作为医生”的 GPT-3,究竟是炒作还是名副其实?
本文插图
作者 |Anne-Laure Rousseau, MD , Clément Baudelaire , Kevin Riera 头图 | CSDN 下载自东方 IC 出品 | CSDN(ID:CSDNnews) 以下为译文:
这个夏天你一定听说过GPT-3 , 这个AI圈内的超级网红 。 GPT-3出自OpenAI之手 , 而OpenAI是世界顶级的AI研究实验室之一 , 由Elon Musk、Sam Altman以及其他人于2015年底成立 , 后来还获得了微软高达10亿美元的注资 。
此外 , 你可能还听说过医疗领域正在经历AI革命 , 这要归功于自动诊断、医疗文档以及药物发现等领域的可喜成果 。 有些人声称在某些工作上AI的算法超过了医生 , 甚至有人宣布机器人即将斩获自己的医学学位!虽然诸多流言蜚语听起来颇有些牵强 , 但是GPT-3会不会成为他们口中的机器人呢?
我们是一个由多学科医生和机器学习工程师打造而成的团队 , 此次我们有幸能够测试一下这种新模型 , 通过探索不同的医疗案件来搞清楚:可以作为医生的GPT-3究竟是炒作还是真的有实力 。
CSDN|可以“作为医生”的 GPT-3,究竟是炒作还是名副其实?
本文插图

规模庞大 的GPT-3
在机器学习领域内 , 像GPT-3这样的语言模型只是根据前面给定的单词(又称为上下文)来预测句子中的下一个单词 。 这是一种超强的自动补齐系统 , 类似于你在写邮件时使用的系统 。 初看之下 , 能够预测句子中的下一个单词似乎很简单 , 但实际上许多了不起的项目都是以该项技术为基础 , 例如聊天机器人、自动翻译以及常见问题解答等 。
截止到目前 , GPT-3是有史以来训练复杂度最高的语言模型 , 共有1,750亿个参数 , 如此多的神经网络结点需要经过数周密集的云计算微调后 , 才能让这个AI发挥神奇的作用 。 虽然这个参数量非常庞大 , 但远不及人脑在推理、感知以及情感能力方面的数百万亿(甚至千万亿)神经突触 。
由于规模庞大 , GPT-3可直接用于新任务以及简短的演示 , 而无需针对特定数据进行进一步的微调 。 这意味着该模型只需学习几个最初的示例 , 就可以成功地理解需要执行的任务 。 与之前简单的语言模型相比 , 此属性有很大的改进 , 而且更接近人类的实际行为 , 比如我们并不需要成千上万的例子来区分猫和狗 。
由于数据来源混杂 , 从各种基本的书籍到整个互联网 , 从维基百科到《纽约时报》 , 因此GPT-3的训练数据有明显的偏差 , 但它在将自然语言转换为网站 , 创建基本的财务报告 , 破解语言谜题 , 乃至生成吉他指法等方面都有出色的表现 。 那么 , 在医疗保健领域又如何呢?
免责声明 正如Open AI在GPT-3准则中的警告 , 医疗保健“属于高风险范畴 , 因为人们依靠准确的医疗信息做出生死攸关的决定 , 任何错误都有可能导致严重的伤害 。 ”此外 , 诊断医疗或精神疾病在该模型中属于“不支持使用” 。 尽管如此 , 此次我们还是决定试一试 , 看看该模型在以下医疗领域的使用情况 , 下面我们从医学的角度出发 , 按照敏感度从低到高将各项工作大致分为:
● 管理员与患者聊天
● 医疗保险查询
● 心理健康支持
● 医疗文件
● 医学问答
● 医学诊断
此外 , 我们还研究了该模型的某些参数对答案的影响(含精彩的内幕揭秘)!
我们的第一项测试表明 , 似乎GPT-3可用于基本的管理任务 , 例如预约管理 。 但是当深入研究时 , 我们发现该模型对时间没有清晰的了解 , 也没有任何恰当的逻辑 。 有时它的记忆力明显不足 , 如下图所示 , 在处理预约的时候 , 患者曾明确表示下午6点之后没空 , 但GPT-3还是推荐了下午7点 。
【CSDN|可以“作为医生”的 GPT-3,究竟是炒作还是名副其实?】


推荐阅读