医药探索中的人工智能

译者 | 崔皓
审校 | 孙淑娟开篇本文探讨了TypeDB帮助科学家们实现医学上的下一个突破,并且会通过指导性的代码例子和视觉效果展示结果 。

医药探索中的人工智能

文章插图

生物技术领域存在大量的炒作都集中于革命性药物发现上 。毕竟,过去十年是该领域的黄金时代 。与之前的十年相比,2012年到2021年这段时间批准的新药增加了73%--比之前的十年增加了25% 。这些药物包括治疗癌症的免疫疗法、基因疗法,当然还有科威德疫苗 。从这些方面可以看出制药业做得很好 。
但其呈现的趋势也越来越令人担忧 。药物发现的成本和风险正变得令人望而却步 。截至到当前,新药推向市场的平均费用在10亿至30亿美元,平均时间在12至18年 。同时,一种新药的平均价格已经从2007年的2千美元飙升到2021年的18万美元 。
这就是为什么许多人把希望寄托在人工智能(AI)(如统计机器学习)上,以帮助加速新药的开发,从早期目标识别到试验 。虽然已经利用各种机器学习算法确定了一些化合物,但这些化合物仍处于早期发现或临床前的开发阶段 。人工智能彻底改变药物发现的承诺仍然是令人兴奋但尚未实现的承诺 。什么是人工智能?为了实现这一承诺,理解人工智能的真正含义就显得至关重要了 。近年来,人工智能这个词已经成为相当热门的词汇,没有多少技术含量 。那么,什么才是真正的人工智能?
人工智能,作为一个学术领域,从20世纪50年代起就已经存在了,随着时间的推移,分支成各种类型,代表不同的学习方式 。佩德罗-多明戈斯教授在《算法大师》一书中对这些类型进行了描述(他称它们为 "部落"):连接主义者、符号主义者、进化主义者、贝叶斯主义者和模拟主义者 。
在过去的十年里,贝叶斯主义者和连接主义者受到了公众的广泛关注,而符号主义者则不同 。符号学派在进行逻辑推理的规则集的基础上,创造出真实的世界表征 。符号人工智能系统没有其他类型的人工智能所享有的巨大宣传,但它们拥有其他类型所缺乏的独特而重要的能力:自动推理和知识表示 。对生物医学知识的表现事实上,知识表现的问题正是药物发现中最大的问题之一 。现有的数据库软件,如关系数据库或图形数据库,很难准确地表示和理解生物学错综复杂的问题 。
药物探索所表述的问题很好地说明了要为不同的生物医学数据源(如Uniprot或Disg.NET)建立统一的模型 。在数据库层面,这意味着创建数据模型(有些人可能把这些称为本体),描述无数复杂的实体和关系,如蛋白质、基因、药物、疾病、相互作用等之间的关系 。
这就是TypeDB,一个开源的数据库软件,旨在实现的目标--使开发者能够创建高度复杂领域的真实表现,计算机可以利用它来获得洞察力 。
TypeDB的类型系统是基于实体关系的概念,代表了TypeDB中存储的数据 。这使得它足以捕捉复杂的生物医学领域知识(通过类型推理、嵌套关系、超关系、规则推理等),使科学家获得洞察力并加速药物开发时间 。
一家大型制药公司的例子说明了这一点,该公司使用语义网标准为一个疾病网络建模奋斗了五年多,但在迁移到TypeDB之后,仅用三周时间就成功实现了这一目标 。
例如,一个用TypeQL(TypeDB的查询语言)编写的、描述蛋白质、基因和疾病的生物医学模型看起来如下: 【医药探索中的人工智能】define protein sub entity,owns uniprot-id,plays protein-disease-association:protein,plays encode:encoded-protein; gene sub entity,owns entrez-id,plays gene-disease-association:gene,plays encode:encoding-gene; disease sub entity,owns disease-name,plays gene-disease-association:disease,plays protein-disease-association:disease;encode sub relation,relates encoded-protein,relates encoding-gene;protein-disease-association sub relation,relates protein,relates disease;gene-disease-association sub relation,relates gene,relates disease;uniprot-id sub attribute, value string;entrez-id sub attribute, value string;disease-name sub attribute, value string;关于一个完整的工作实例,可以在Github上找到一个开源的生物医学知识图 。这是从各种著名的生物医学资源加载数据,如Uniprot、Disgenet、Reactome和其他 。
有了存储在TypeDB中的数据,你可以运行查询,问一些问题,如:哪些药物会与SARS病毒有关的基因相互作用?
为了回答这个问题,我们可以使用TypeQL中的以下查询 。 match $virus isa virus, has virus-name "SARS"; $gene isa gene; $drug isa drug; ($virus, $gene) isa gene-virus-association; ($gene, $drug) isa drug-gene-interaction;


推荐阅读