「数据」全球性疫情要被终结?AI在其爆发之前就能阻止它
【「数据」全球性疫情要被终结?AI在其爆发之前就能阻止它】DoNews 3月7日消息(编辑 叶辰) 去年冬天 , 随着流感季节的到来 , 全球各地的医疗机构都在加班加点地工作 。 美国疾病控制与预防中心(CDC)公布的数据现实 , 近几个月来 , 已有超过18万美国人住院 , 另有1万人死亡 , 而新型冠状病毒(现已正式命名为COVID-19)也以惊人的速度在全球蔓延 。

文章图片
对全球范围内流感疫情爆发的担忧 , 甚至促使2020年移动世界大会(MWC 2020)这样的盛会 , 在距离开幕仅剩7天时间宣布取消 。 但在不久的将来 , 人工智能(AI)增强的药物开发过程可以帮助以足够快的速度生产疫苗 , 并找到治疗方法 , 在致命病毒变异成全球性疫情之前阻止它们的传播 。
传统的药物和疫苗开发方法效率极低 。 研究人员可以花费近十年的时间 , 通过密集的试验和纠错技术 , 对每个候选分子进行详细审查 。 塔夫茨药物开发研究中心2019年的一项研究现实 , 开发一种药物的平均成本为26亿美元 , 这是2003年成本的两倍多 。 而且 , 只有大约12%进入临床开发阶段的药物获得了FDA批准 。
美国佐治亚大学药学和生物医学科学助理教授伊娃-玛丽亚·斯特拉克博士(Eva-Maria Strauch)指出:"你绕不过FDA , 后者真的需要5到10年的时间才能批准某种药物 。 "然而 , 在机器学习系统的帮助下 , 生物医学研究人员基本上可以颠覆试错方法 。 研究人员可以使用AI来对大量候选化合物数据库进行排序 , 并推荐最有可能有效的治疗方法 , 而不是手动尝试每种潜在的治疗方法 。
华盛顿大学计算生物学家S·约书亚·斯瓦米达斯(S.Joshua Swamidass)在2019年接受采访时称:"药物开发团队真正面临的许多问题 , 不再是人们认为他们只需在脑海中整理数据就能处理的那种问题 , 而是必须有某种系统方式来处理大量数据、回答问题并洞察如何做事 。 "
例如 , 口服抗真菌药物terbinafine于1996年上市 , 名称为拉米非 , 被用于治疗鹅口疮 。 然而 , 在三年内 , 有多人报告了服用该药物的不良反应 。 到2008年 , 已有3人死于肝中毒 , 另有70人患病 。 医生发现terbinafine的一种代谢物(TBF-A)是造成肝脏损伤的原因 , 但当时无法弄清楚它是如何在体内产生的 。
这种代谢途径十年来始终是医学界的一个谜 , 直到2018年 , 华盛顿大学研究生Na Le Dang训练了一台关于代谢途径的AI , 并让机器找出了肝脏将terbinafine分解为TBF-A的潜在途径 。 事实证明 , 创建有毒代谢物是个两步过程 , 而且这是个很难通过实验识别的过程 , 但用AI强大的模式识别能力却非常简单 。
事实上 , 在过去的50年里 , 已经有450多种药物被从市场上撤下 , 其中许多药物像拉米菲尔一样导致肝中毒 。 这促使FDA推出Tox21.gov网站 , 这是个关于分子及其对各种重要人类蛋白质相对毒性的在线数据库 。 通过在这个数据集上训练AI , 研究人员希望更快地确定潜在的治疗是否会导致严重的副作用 。
美国先进翻译科学中心的首席信息官山姆·迈克尔(Sam Michael)帮助创建了这个数据库 , 他解释称:"我们过去遇到过一个挑战 , 本质上是 , '你能提前预测这些化合物的毒性吗?'这与我们对药物进行小分子筛查的做法正好相反 。 我们不想找到匹配的药物 , 我们只是想说'嘿 , 这种(化合物)有可能是有毒的 。 '"
当AI不忙于解开十年来的医学谜团时 , 他们正在帮助设计一种更好的流感疫苗 。 2019年 , 澳大利亚弗林德斯大学的研究人员使用AI为开发一种普通流感疫苗提供增强效应 , 这样当人体接触到它时 , 就会产生更高浓度的抗体 。 从技术上讲 , 研究人员并没有"使用"AI , 而是启动它 , 让它自己寻找用例路径 , 因为它完全是自己在设计疫苗 。
该团队由弗林德斯大学医学教授尼古拉·彼得罗夫斯基(Nikolai Petrovsky)领导 , 首先建立了AI Sam(配体搜索算法) 。 AI Sam接受的训练是区分那些对流感有效和无效的分子 。 然后 , 研究小组训练了第二个程序 , 以生成数万亿个潜在的化合物结构 , 并将这些结构反馈给AI Sam , 后者开始决定它们是否有效 。
然后 , 研究小组挑选出排名靠前的候选化合物结构 , 并对他们进行了物理合成 。 随后的动物试验证实 , 增强后的疫苗比未改进的前身更有效 。 最初的人体试验于今年年初在美国开始 , 预计将持续12个月 。 如果审批过程顺利 , 增强版疫苗可能在几年内公开上市 。 对于只需要两年(而不是正常的5-10年)就研发出来疫苗来说 , 这绝非坏事 。
虽然机器学习系统可以比生物研究人员更快地筛选巨大的数据集 , 并通过更脆弱的联系做出准确的知情估计 , 但在可预见的未来 , 人类仍将留在药物开发循环中 。 毕竟 , 人类需要生成、整理、索引、组织和标记所有的训练数据 , 并教授AI他们应该寻找的东西 。
即使机器学习系统变得更有能力 , 当使用有缺陷或有偏见的数据时 , 它们仍然很容易产生次优结果 , 就像其他所有AI一样 。 Unlearn.AI创始人兼首席执行官查尔斯·费舍尔博士(Dr.Charles Fisher)在去年11月写道:"医学上使用的许多数据集大多来自白人、北美和欧洲人群 。 如果研究人员在机器学习中只是用这样的数据集 , 并发现某个生物标记物来预测对治疗的反应 , 就不能保证该生物标记物在更多样化的人群中发挥作用 。 "为了对抗数据偏见带来的扭曲效应 , 费舍尔主张使用"更大的数据集、更复杂的软件和更强大的计算机" 。
另一个重要组成部分将是干净的数据 , 正如Kebotix首席执行官吉尔·贝克尔博士(Jill Becker)解释的那样 。 Kebotix是2018年成立的初创公司 , 它将AI与机器人技术结合起来 , 设计和开发奇异的材料和化学品 。
贝克尔博士解释说:"我们有三个数据来源 , 并有能力生成我们自己的数据 。 我们也有自己的合成实验室来生成数据 , 然后使用外部数据 。 "这些外部数据可以来自开放期刊或订阅期刊 , 也可以来自专利和公司的研究伙伴 。 但贝克尔指出 , 无论来源如何 , "我们都花了很多时间清理它 。 "
美国先进翻译科学中心的首席信息官山姆·迈克尔(Sam Michael)也称:"确保数据具有与这些模型相关联的适当元数据是绝对关键的 。 而且这不是随随便便就能发生的 , 你必须付出真正的努力 。 这很难 , 因为这个过程既昂贵又耗时 。 "
【本文转自网易智能】
推荐阅读
- 中韩季中杯A组巡礼,综合数据T1和FPX更好,大概率会携手小组出线
- 三国杀:卡牌是否应该“界限突破”?且看这版「界闪电」设计如何
- 「周榜」9件最抢手美衣
- 「连麦两会」两位90后村支书隔空分享战“疫”中的乡村管理经验,共谋致富奔小康之路
- 「两会访谈」新冠疫情下的外贸企业突围之路
- 钱江晚报浙江有人花108元点了6斤小龙虾外卖,净重竟然只有……数据惊掉下巴!
- 「图解」半导体成当之无愧吸金王,2.8亿资金打板紫光国微
- RNG中最坑的不是狼行而是小虎!网友总结S9数据发现小虎是倒数第一
- 「威客电竞CSGO」ESL里约欧洲淘汰赛,Astralis 3比0碾压G2获冠军
- 单场进三球!德甲头号中卫完爆诺伊尔戏耍拜仁,一数据全欧第一
