张田勘
说到最近网上最火的科技名词,非“ChatGPT”莫属 。ChatGPT(Chat Generative Pre-trained Transformer)是美国一家人工智能研究公司研发的聊天机器人程序,不仅能与人有问有答,文章也写得有模有样,因此有些人称之为史上最强AI(人工智能),甚至还有人联想到科幻片中人工智能最终取代人类的情节 。记得上一轮掀起舆论热潮的人工智能事件,还是2016闍lphaGo以4∶1战胜世界顶级围棋棋手李世石 。今天我们就来说说以ChatGPT为代表的人工智能对当前社会发展的影响,以及其现有成果在生物科学领域的作用 。
接受强化训练的生成式AI:
对接用户需求创造新内容
现在全世界都在谈论的ChatGPT是一个人工智能撰稿和聊天工具,去年11月一经推出,便在社交媒体上迅速走红,至今月活跃用户已过亿 。ChatGPT能够通过学习和理解人类的语言来进行对话、回答各种问题,还能根据要求完成视频脚本、文案、论文、代码等写作任务 。它的成功,源于以深度学习为代表的人工智能技术的长期积累 。从属性上看,ChatGPT其实是一个大型语言模型(LLM),接受过大量文本数据的训练,能够对各种各样的问题输入生成类似人类的应答结果和反应,因此,也可以称它为容生成器 。
AI需要具备3个要素:数据、算力及算法 。数据是知识原料,算力及算法则提供“计算智能”以学习知识并实现特定目标 。人们对AI有多种分类,以AI“能做什么工作”和“完成什么任务”作为标准,可以简单将其分为反应式AI(分析型AI)和生成式AI 。
反应式AI根据预编程规则对不同类型的刺激做出反应,由于不使用内存,所以无法通过新数据进行学习 。1997年击败国际象棋冠军加里·卡斯帕罗夫的IBM深蓝超级计算机就是反应式AI 。
而生成式AI获得了大量数据、信息,并且经过强化训练和深度学习,以及类似于神经网络的反馈纠错机制,所以能完成很多工作,产生很多产品 。用一句话概括其本质:根据用户的具体需求创造新内容 。
从ChatGPT的 全 称“Chat Generative Pre-trained Transformer(生成式预训练转换器)”就能看出,它是一款可以自行生成许多内容的AI,包括各类文本、文章、与人对话、翻译、编写代码、绘画、制作视频等 。
由于受各种因素的制约,ChatGPT生成的内容也有不少错误,尤其是关于社会、文化、人文、哲学、政治、经济和历史方面的内容 。但是在自然科学领域,由于有公认的定律和共同的认知,如“原子是由带正电的原子核和核外带负电的电子构成的”,ChatGPT生成的内容出错率相对较少 。
正因如此,虽然生成式AI在所有领域都有用武之地,但类似ChatGPT的生成式AI在自然科学领域的应用更受青睐 。生物医学研究、医疗和生命科学都需要生成式AI,ChatGPT只是其中一种 。
准确预测蛋白质结构:
可加快新药和疫苗研发
目前,生成式AI在生物医学领域的用途方兴未艾 。生成式AI不仅能分析成千上万种蛋白质,还可以生成新的蛋白质,甚至是自然界从未出现过的蛋白质 。
过去,认识和精确测定蛋白质的构型需要耗费大量的时间和精力,还未必能测得准,给药物、疫苗研发和疾病治疗造成了阻碍 。如果生成式AI的结果既准确又快速,就可以知道一些病毒变异后的蛋白质结构,如新冠病毒的S蛋白变异,从而加快研发新药和疫苗的速度 。
2020年,英国深度思考公司研发的阿尔法折叠2(Alpha Fold-2)有了惊人成就 。这款生成式AI在2020年举行的第14届“蛋白质结构预测关键评估”大赛中大放异彩 。它测定的大部分蛋白质结构非常准确,不仅与实验方法测得的蛋白质结构的精确度相同,还远超解析新蛋白质结构的其他方法 。具体来说,阿尔法折叠2能在几分钟内预测出一个典型蛋白质的结构,并能够在几天内生成高精度的结构 。2022年初,阿尔法折叠2又测出了2.2亿个蛋白质的结构,几乎涵盖了DNA数据库中已知生物的所有蛋白质 。
2022年11月,Meta公司(前身为Facebook)奋起直追,其名为ESMFold的生成式AI软件预测了约6亿个蛋白质的结构,这些蛋白质来自细菌、病毒和其他尚未命名的微生铩K淙桓萌砑?淖既沸圆蝗绨⒍?ㄕ鄣?2,但在预测结构方面速度要快约60倍 。
ESMFold的原理与ChatGPT基本相似,也是一种大型语言模型,只不过,训练它的内容不是自然语言,而是生物基因语言,也就是通过碱基排列的顺序和规律来检测蛋白质 。
举例来说,对于ESMFold的训练,是把已知蛋白质的氨基酸序列“投喂”给它们,正如训练ChatGPT要把自然语言的词语根据语法进行“投喂”一样 。自然界的蛋白质可以用20个不同的氨基酸链表示,每个氨基酸链由一个字母表示,这种训练使ESMFold对蛋白质序列有直观理解,并能理解蛋白质序列包含的蛋白质形状信息 。在这样的深度学习之后,ESMFold学会了在氨基酸比例模糊的情况下“自动补全”信息 。
推荐阅读
- ChatGPT,将元宇宙拍在沙滩上?
- 一键恢复和重装系统的区别是什么
- 是时候开始担心AI黑客了吗?
- 【科学的温度】ChatGPT被指没“人性”,可能产生哪些危害?
- 欧姆龙是哪个国家的品牌?Laneige兰芝是什么品牌?
- 海马是鱼类吗还是哺乳动物?海马是鱼类吗?
- 地球最内核是什么?国际最新研究称或为半径约650千米铁球
- me系统是什么意思啊?安装ME提示系统语言错误怎么处理?
- n2是什么气体--硫化氢是一种什么样的气体
- 奥运会2036是哪个国家 2036年世界末日