AI 在小分子药物发现中的潜能与挑战

  撰稿:John Xie

  在4 月刊中,我们在《ChatGPT 能给制药业带来革命吗?》一文中,详细讨论了人工智能(AI)和深度学习在医药行业的潜在应用,以及这些技术如何有可能引领药物发现和开发的新革命。我们强调了AI 的潜力,特别是在加速药物发现、优化药物研发流程以及提高药物的成功率等方面。尽管面临数据质量和数量的挑战,但AI 的应用正在逐步成为医药行业的新趋势。然而,这是一个正在发展的领域,需要进一步的研究和探索。

  延续这一主题,我们有幸采访到了医药人工智能研究领域的专家,Verseon 公司生物发现部门主管Anirban Datta 博士。 Datta 在生物医学研究和药物发现方面有超过20 年的经验。他是Verseon 的自动化流程的推动者,该流程用于化合物的生物特征分析,找出其独特的特性,并构建候选药物的开发途径。

  他领导了不同疾病领域的多个药物发现项目,包括心脏代谢紊乱、眼科和肿瘤学。Datta 也是加州大学旧金山分校的科学家和 Susan B. Komen 乳腺癌基金会研究员,并获得美国国防部颁发的肺癌和乳腺癌概念奖。他的早期研究拓展成为一家癌症诊断公司。他在芝加哥大学获得物理学和生物学学士学位,在宾夕法尼亚大学获得分子生物学博士学位。

  Datta 在药物发现和开发中使用AI 的经验和独到见解,让我们有机会深入理解AI 如何解决药物发现中的复杂问题,以及这个领域的未来发展趋势。在本期的「会客室」中,Datta 向我们阐述了一些关键问题,例如如何解决训练数据不足的问题,以及如何使用迁移学习和弱监督学习等方法进行有效的训练。

  他认为,尽管当前的挑战很大,但AI 在药物发现中的潜力是巨大的。他期待AI在未来能在更早的阶段预测出潜在的药物分子,大大加速药物的研发进程,同时也能降低研发成本。他的意见不仅扩展了对AI 在医药行业应用的理解,同时也为我们揭示了一些关键的行业趋势,这些趋势可能会塑造未来的药物发现和开发流程,进一步推动医药行业的进步。

  Q:近年来,人工智能在医药领域的应用引起了广泛的关注。在您看来,AI 能否全面实现小分子药物的发现?

  Datta:这是一个很好的问题,AI 已经在各种现实世界的任务中展示了其能力,比如图像和语音识别、手写分析等。在药物发现中,我们面临着非常大的挑战,这包括可靠预测新型小分子药物,这些药物需要能有效地与引发疾病的蛋白质结合,并改变其功能。但是,AI 还不够完美,2020 年,一位特斯拉车主发布了一段有趣的视频,他的车把汉堡王的标志误认为是停车标志。这是一起深度学习高级机器学习算法出错的无害案例。虽然特斯拉汽车公司因在其汽车中应用人工智能而闻名,但事实证明,这些人工智能算法远非完美。可悲的是,有更多基于人工智能的自动驾驶软件犯下严重错误,可能导致伤害的危险例子。例如有一辆特斯拉汽车的案例,它未能识别出在十字路口中间举着停车牌的人,车载人工智能决定不停车。值得庆幸的是,人类司机进行了干预,避免了悲剧的发生。

  现代药物的研发,仍然在高昂的成本和低下的效率之间挣扎。目前,一款典型药物需要10到12年的时间来开发,在获得批准之前要花费数十亿美元,更不用说大多数药物在临床试验中失败。毋庸置疑,有很大的改善的空间。我们希望人工智能能够解决现代药物发现核心的一个最具挑战性的问题――可靠地预测新型小分子药物,使其有效地与致病蛋白质结合并改变其功能。

  在过去的十年中,围绕这一痛点,许多公司相继成立,承诺使用人工智能来彻底改变小分子药物的发现,私人与公共市场的投资者一直在向这些公司倾注资金。Exscientia 和Recursion Pharmaceuticals 目前在筹资方面处于领先地位,而其他公司如InSilico Medicine、InSitro、XTalPi、 Generate Biomedicines、Benevolent AI 和Atomwise也不甘落后。尽管现在有许多人工智能药物发现公司都拥挤在这个领域,但投资者的兴趣并没有显示出减弱的迹象,新的公司仍在成立和融资。

  Q:我们已经看到很多公司声称他们将使用AI 来革新小分子药物的发现,他们的进展如何?

  Datta:理想的情况是,AI 能够可靠预测出可以上市的新型小分子药物。但是从以往应用新技术进行药物发现的热潮来看,这些公司可能无法完全实现这样的目标。然而,基于机器学习的过去和未来趋势,以及药物设计的独特挑战。

  机器学习的成功,特别是深度学习,在很大程度上取决于用于训练的大型数据集的可用性和质量。数据,特别是包括所有可能的相关场景的密集数据集,支持着人工智能模型根据它在训练中「学习」到的东西进行推断。一般来说,可用的训练数据越多,大多数人工智能模型的表现就越好。

  典型的人工智能模型基本上是黑匣子,这些模型做出的预测对人类来说几乎是不可理解的。依靠这些预测需要对人工智能模型的信任,而在大多数应用中,不可能在所有可能的情况下训练人工智能算法,这使情况更加复杂。人类在直觉上善于进行逻辑上的跳跃。事实证明,人工智能模型不是这样的,至少目前不是。这方面的一个现实世界的案例是我前面提及的,那辆特斯拉汽车遇到了一个举着停止牌的过路警卫,没有停下来。与人工智能在面对其训练数据集之外的情况时无法做出正确决定不同,人类司机能够推断并做出正确的选择。

  Q:那么,如何克服训练数据不足的问题,以实现有效的AI 训练呢?

  Datta:这是一个关键问题。成功的机器学习,特别是深度学习,重度依赖于大量的高质量训练数据。但是,对于预测新型小分子药物,我们需要的数据量是非常大的,因为蛋白质与小分子的结合极其复杂,可能的小分子结合物的数量更是天文数字级别的。这就需要我们有足够的高质量训练数据来进行有效的学习。要解决这个问题,我们需要做两件事:一是积累更多的高质量数据,二是利用现有的数据进行更有效的学习。对于前者,我们需要加大投入,开展更多的实验,获取更多的数据。对于后者,我们可以利用迁移学习、弱监督学习等方法,以少量的标注数据进行高效的学习。

  基于物理的分子建模,利用分子相互作用的基本原理,预测蛋白质和小分子药物的结合强度。这种技术生成合成数据,替代昂贵且耗时的实验。随着合成数据的积累,AI可以通过内插法找到与当前药典中的药物不相似的新型药物样结合物。

  尽管大型制药公司,如阿斯特拉赛纳、默克KGaA、诺华和葛兰素史克,已经开始了自己的内部AI 启用的药物发现努力,他们也可以利用自己的历史数据,但大多数数据是来自过去药物发现活动的遗留信息,而这些信息既不足够多样,也不足够密集,足以有效地训练AI。而且,这些数据集与全新的化学实体无关。

  当训练数据充足时,AI 擅长内插;而分子建模则能够基于分子物理的规则进行外推。合理地整合AI 和分子建模可能会在小分子药物发现中产生比任何一种方法单独应用都更强大的突破。因此,拥有基于物理的分子建模和AI 深度专业知识的公司可能具有最终的优势。

  Q:有一些人工智能预测蛋白质结构方面取得了重大进展,如何理解这些突破是如何发生的?人工智能药物发现还面临什么挑战?

  Datta:确实,DeepMind 的AlphaFold 2 在蛋白质结构预测中实现了重大突破,但这并不意味着AI 驱动的药物发现的挑战将会一帆风顺。对于蛋白质,有大量的基因组数据库包含许多物种的大量蛋白质序列。蛋白质在结构(和功能)上与其他相关蛋白质的相似性,超过基于蛋白质序列相似性的预期,即使在跨物种比较时也是如此。

  AlphaFold 2 等AI 程序试图最大限度地利用大型基因组数据库中的信息内容,如多序列比对(MSA)、共演化和结构模板。DeepMind 在AlphaFold 2 中实施了一些AI 创新,以解决蛋白质折叠的重大挑战,而近年来高质量训练数据的快速增加――无论是蛋白质序列还是实验确定的蛋白质结构――发挥了核心作用。实际上,AlphaFold 2 是在公开可用的基因组数据库中经过巨大的数据集训练的,这些数据库包含了数亿个蛋白质序列和近175,000 个蛋白质结构,以便构建MSA 和查找结构模板。

  然而,蛋白质与小分子药物的结合问题比蛋白质折叠更难用AI 来解决。这主要有以下三个原因:

  1. 数据稀疏性:应用于蛋白质- 小分子药物结合的AI 将倾向于预测与其已经训练过的药物相似的药物,因为它可以内插但不能外推已知数据。因此,实验结合数据的稀疏性限制了AI 可以找到的药物样分子的类型、数量和多样性。

  2. 缺乏负面数据:为了有效训练, AI 不仅应该有正面的结合数据,还应该有负面数据。换句话说,AI 需要从结合和不结合或弱结合中学习,以便做出可靠的预测。然而,负面信息更难获取,因为大多数研究公开发表和专利只会描述具有积极效果的化合物。

  3. 细微变化的敏感性:蛋白质- 小分子药物结合对细微变化极度敏感。小分子的化学结构或3-D 坐标的微小变化可能导致结合亲和力的显著差异。没有大量的密集和相关数据,深度学习难以准确预测这些突然的变化。

  Q:您认为AI 在未来的药物发现中会扮演什么样的角色呢?

  Datta:尽管挑战很大,但AI 在药物发现中的潜力也是巨大的。我相信在未来, AI 会在药物发现中扮演越来越重要的角色。它可以帮助我们在更早的阶段预测出潜在的药物分子,这会大大加速药物的研发进程,同时也能降低研发成本。此外,AI 还可以帮助我们解析疾病的复杂性,理解不同疾病之间的关系,从而开发出更有效的治疗手段。

关注读览天下微信, 100万篇深度好文, 等你来看……