科研人不担心有机物命名不规范了 有机化合物的命名

有机化合物的命名(研究人员不用担心有机化合物的命名不规范) 。
“有机化合物怎么能以资源网命名?有机化合物的命名规则是什么?”,“这种药的活性成分是什么?”,“有没有什么软件或者程序可以找到有机化合物的命名?”、“某某命名软件也要花钱 。”,“有些软件命名不准确 。」 ......

科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

注:部分来自知乎问题 。
总之,有机化合物的命名太难,规则太繁琐,没有开源软件 。......
AI的发展“兴盛”能否解决上述问题?
现在,莫斯科罗蒙诺索夫州立大学和Syntelly初创公司的研究人员开发了一种基于Transformer的人工神经方法,可以根据IUPAC命名系统生成有机化合物的名称 。
它也是开源的,可以在线使用 。
我迫不及待地想有一个在线体验,在本文的“使用小攻略”部分 。
科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

项目地址:https://app.syntelly.com/smiles2iupac.
IUPAC命名法是有机化合物命名的系统方法,在有机化学中占有重要地位 。化学家通常手动创建IUPAC名称,但这个过程容易出错,需要对命名规则有深刻的理解 。电脑可以缓解这个问题 。化学家可以使用软件工具来生成名字 。
然而,对于有机结构到名称的翻译,并没有开源工具 。与现有解决方案(如ChemDraw JS和词典hem TK)的许可协议需要特殊许可才能嵌入其他平台 。
近日,来自莫斯科罗蒙诺索夫州立大学和Syntelly初创公司的研究人员开发了一种基于Transformer的人工神经方法,根据IUPAC命名系统生成有机化合物的名称 。新的解决方案已经在Syntelly平台上实现,可以在线使用 。
这项名为“用于化学符号间转换的基于变压器的人工神经网络”的研究发表在7月20日的《科学报告》杂志上 。
科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

“起初,我们想为我们的AI化学平台Syntelly创建一个IUPAC名称生成器 。很快,我们意识到通过数字化IUPAC规则来创建算法需要一年多的时间,因此我们决定利用我们在神经网络解决方案方面的经验,”该研究的主要作者、Syntelly初创公司的联合创始人Sergey Sosnin说 。
循环神经网络(RNN)和Transformer已经成功地应用于自然语言翻译 。研究人员基于Transformer构建了一个神经网络,可以将分子从SMILES(简化分子线性输入规范)转换为IUPAC名称,反之亦然 。描述了它们的解决方案,讨论了它们方法的优缺点,并表明变压器资源网络可以提供类似人类化学直觉的东西 。
结果表明,将SMILES字符串转换为IUPAC名称的Struct2IUPAC模型在PubChem测试集中的准确率达到98.9% 。逆向模型(IUPAC2Struct)的准确率为99.1%,相当于开源OPSIN软件(一种用于名称到结构转换的开源工具) 。
方法数据库:深度学习技术需要大量数据 。新网络使用全球最大的开放化学数据库PubChem进行培训和测试,包含94,726,085个结构 。数据库分为两部分,一部分用于培训,另一部分用于测试 。
IUPAC和SMILES标记:标记是将一个序列分成块并划分这些块(标记)的过程 。这是语言模型常见的预处理阶段 。使用基于字符的SMILES标记,并实现基于规则的IUPAC标记 。本文研究的IUPAC标记是人工设计和管理的 。该标记可以正确处理来自PubChem的99%以上的分子 。
科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

插图:SMILES标记化(上)和IUPAC名称标记化(下)的演示 。(来源:论文)
Transformer模型:使用Google团队设计的现代神经架构Transformer作为研究基础,并训练其将分子的结构表示转换为IUPAC名称,反之亦然,Transformer是Google最初设计的最强大的机器翻译神经网络之一 。
训练了两个模型:将SMILES字符串转换为IUPAC名称的Struct2IUPAC和执行反向转换的IUPAC2Srtuct 。基本上不需要IUPAC2Srtuct模型,因为可以成功使用开源OPSIN 。
科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

图形:结构2交流变压器模型 。(来源:论文)
验证步骤:使用OPSIN,您可以验证生成的化学名称,以确保它们对应于正确的结构 。可以检测到发电机的故障,并且不会显示错误的名称 。
科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

图示:验证步骤 。(来源:论文)


推荐阅读