Table of Contents

实验室简介

English Version

实验室聚焦生物多尺度信息融合难点,通过结合高性能计算和人工智能算法,解决生物医药科学中的重大问题,为生物医药产业赋智赋能,开发准确且超快的疾病诊疗和新药研发算法,并基于“天河二号”构筑大数据分析和计算统一的云超算平台,为产学研应用提供一站式服务。

随着健康大数据的快速发展,健康医药已成为AI产业应用的一个热点,腾讯、阿里、华为等公司均纷纷布局相关产业开发,而今年的抗击疫情充分展示了大数据分析在人类健康中的重要作用。疫情期间,本实验室充分利用“天河二号”的超强算力,开展了基于CT的智能诊断、药物智能推荐算法、及医药知识图谱等一系列工作,取得了多项重要成果。项目涉及CV、NLP、ML、知识图谱等多个领域,广泛运用到了各种前沿AI技术,对任意技术感兴趣的同学都能在这里找到属于自己的舞台。我们与其他大多数AI实验室所不同的地方在于更着重于培养学生解决真实物理世界难题,研究过程中学会发现、分析、并解决问题,也更容易被IT大公司所青睐。

很多计算机背景同学看到我们的介绍就望而止步,误解需要大量的生物化学学习,实际上我们的重点是研究计算机算法去解决生物医药的问题,核心还是算法,研究组的学生绝大多数是计算机背景,当然适当的生化知识对深入的研究有很好的支持。实验室鼓励学生去国内外著名大学深造,实验室的AI+Science研究方向更合适有科学研究抱负的同学,有更深远的发展空间,欢迎感兴趣的本科生联系。

参考实验室成员撰写的 《计算机本科生参与科研心得体会》全文链接

实验室长期招聘研究生、博士生、博士后。相关研究方向背景合适的学者也可以向学院推荐申请副教授或教授职位。

目前主要研究内容包括多个维度:生物分子的几何图网络表征,大模型+知识图谱驱动的多尺度组学数据挖掘、融合分子模拟的药物分子智能设计,基于“天河二号”的生物医药高性能计算平台研发及应用(平台及应用)。

研究简介

代表性论文

  1. Zheng S, Y Li, S Chen, J Xu* and Yuedong Yang* . Predicting Drug Protein Interaction using Quasi-Visual Question Answering System. Nature Machine Intelligence 2020;2(1):134-140 PDF (将药物设计转化为经典VQA问题;2021年世界人工智能大会青年优秀论文奖).
  2. Zheng S, Tan Y, Wang Z, Li C, Zhang Z, Sang X, Chen H, Yuedong Yang* . Accelerated rational PROTAC design via deep learning and molecular simulations. Nature Machine Intelligence 2022;4:739–748 PDF. (超快速PROTAC药物设计和实验验证
  3. Y Zeng, M Luo, N Shangguan, P Shi, J Feng, J Xu, K Chen, Y Lu, W Yu, and Yuedong Yang*. Deciphering Cell Types by Integrating scATAC-seq Data with Genome Sequences Nature Computational Science 2024;4:285–298 . (利用基因序列引导实现组学数据降噪)
  4. J Rao, J Xie, Q Yuan, D Liu, Z Wang, Y Lu*, S Zheng*, Yuedong Yang*. A Variational Expectation-Maximization Framework for Balanced Multi-scale Learning of Protein and Drug Interactions. Nature Comm 2024 ( 基于Expectation-Maximization实现多尺度信息融合)
  5. Y Song, Q Yuan, S Chen, Y Zeng, H Zhao, Yuedong Yang*. Accurately predicting enzyme functions through geometric graph learning on ESMFold-predicted structures. Nature Comm 2024 (Accepted) (基于结构的蛋白质酶功能准确预测)
  6. Zheng S, T Zeng, C Li, B Chen, CW Coley, Yuedong Yang* , Ruibo Wu*. Deep learning driven biosynthetic pathways navigation for natural products with BioNavi-NP. Nature Comm 2022;13:3342 (天然产物逆合成预测;中国日报网海外版专题报道“Supercomputer, AI to speed up drug discoveries”
  7. Qiu J#, Xie J#,Su S, Gao Y, Meng H, Yuedong Yang* , Liao K*. Selective functionalization of hindered meta-C–H bond of o-alkylaryl ketones promoted by automation and deep learning. Chem 2022; doi:j.chempr.2022.08.015 PDF. (自动化和智能化结合加速化学反应预测科学网报道
  8. S Chen, J Xie, R Ye, DD Xu, Yuedong Yang*. Structure-Aware Dual-Target Drug Design through Collaborative Learning of Pharmacophore Combination and Molecular Simulation. Chemical Science 2024; 15, 10366-10380 (Cover Story) (一药双靶的药物智能设计.]]
  9. S Zheng, J Rao, J Zhang, C Li, Yuedong Yang*. Cross-modal Graph Contrastive Learning with Cellular Images. Advanced Science 2024; doi: 10.1002/advs.202404845 ( 连接药物分子和表型细胞图像的预训练模型 ).
  10. Zheng S#, Rao J#, Song Y, Zhang J, Xiao X, Fang EF, Yuedong Yang* , Niu Z*. PharmKG: A Dedicated Knowledge Graph Benchmark for Biomedical Data Mining. Brief in Bioinfo 2020;bbaa344 PDF (PharmKG与Alphafold、IBM Waston等一起,被英国调研机构Deep Pharma Intelligence列为2018-2020年国际AI制药十大进展

图网络基础理论方法

1) 图神经网络算法

2) 知识图谱

PharmKG: Biomedical Knowledge Graph

3) 基础大模型

蛋白质结构和功能预测

蛋白质是生物体最重要大分子之一,参与几乎所有的生命活动,准确预测蛋白质三维空间结构和折叠过程被列为21世纪重大科学难题之一。从2013年起,PI就利用深度学习技术开发出蛋白质二级结构预测SPIDER系列,是国际上最早将深度学习用于蛋白质二级结构预测的研究之一,此后不断引入多任务学习、模型的迭代训练等策略,并将结构预测从以前的二级结构离散状态转换为连续数值预测。

1) 蛋白质功能预测

GraphSite: Binding Site Prediction based on Modelled Structures by Alphafold2

2) 蛋白质结构性质预测

3) 蛋白质三维结构预测

EM-SEG: Automatic Protein Structure Constructing Method for Cryo-EM

药物智能设计

围绕药物设计全流程,开发了基于AI的全流程算法,包括药物筛选、分子优化、ADMET性质预测、化学合成路线预测等。相关代表性工作包括:

1) 药物筛选

HPC+AI for Accelerated PROTAC design
Drug-VQA: Protein-Drug Interaction Prediction

2) 药物分子优化

Meta-MO: Meta Learning Model for Molecular Optimization

3) 分子逆合成预测

人工智能+高通量实验⇒准确反应预测

多尺度多模态组学数据挖掘

随着组学数据多样化和规模化,能从多个时空尺度、不同视角全面阐释生物个体的状态,使得多组学数据分析扮演着越来越重要的角色。然而,多组学的多噪音、高维度、及变量间的复杂关系,需要借助先验知识,才能实现准确的多组学数据分析。

1) 单细胞数据分析

GraphCS: Scalable Single Cell Classification to Huge Datasets

2) 疾病多组学数据分析

COVID19-net: COVID-19 Diagnosis Method based on CT images