Table of Contents

实验室简介

English Version

实验室研究方向是生物医药高性能计算,通过开发高性能计算、大数据、及人工智能算法,解决生物医药科学中的重大问题,为生物医药产业赋智赋能,开发准确且超快的疾病诊疗和新药研发算法,并基于“天河二号”构筑大数据分析和计算统一的云超算平台,为产学研应用提供一站式服务。

随着健康大数据的快速发展,健康医药已成为AI产业应用的一个热点,腾讯、阿里、华为等公司均纷纷布局相关产业开发,而今年的抗击疫情充分展示了大数据分析在人类健康中的重要作用。疫情期间,本实验室充分利用“天河二号”的超强算力,开展了基于CT的智能诊断、药物智能推荐算法、及医药知识图谱等一系列工作,取得了多项重要成果。项目涉及CV、NLP、ML、知识图谱等多个领域,广泛运用到了各种前沿AI技术,对任意技术感兴趣的同学都能在这里找到属于自己的舞台。我们与其他大多数AI实验室所不同的地方在于更着重于培养学生解决真实物理世界难题,研究过程中学会发现、分析、并解决问题,也更容易被IT大公司所青睐。

很多计算机背景同学看到我们的介绍就望而止步,误解需要大量的生物化学学习,实际上我们的重点是用计算机去解决生物医药的问题,核心还是算法,研究组的学生绝大多数是计算机背景,当然适当的生化知识对深入的研究有很好的支持。实验室鼓励学生去国内外著名大学深造,我们的AI+Science研究方向更合适有科学研究抱负的同学,有更深远的发展空间,欢迎感兴趣的本科生联系。

参考实验室成员撰写的 《计算机本科生参与科研心得体会》全文链接

实验室长期招聘研究生、博士生、博士后。相关研究方向背景合适的学者也可以向学院推荐申请副教授或教授职位。

目前主要研究内容包括多个维度:图卷积网络/知识图谱(基础理论方法),多尺度组学大数据挖掘、智能药物分子设计(生信算法),基于“天河二号”的生物医药高性能计算平台构建及其在疾病诊断和药物研发应用(平台及应用)。

研究简介

代表性论文

  1. Zheng S, Y Li, S Chen, J Xu* and Yuedong Yang* . Predicting Drug Protein Interaction using Quasi-Visual Question Answering System. Nature Machine Intelligence 2020;2(1):134-140 PDF (将药物设计转化为经典VQA问题;2021年世界人工智能大会青年优秀论文奖).
  2. Zheng S, Tan Y, Wang Z, Li C, Zhang Z, Sang X, Chen H, Yuedong Yang* . Accelerated rational PROTAC design via deep learning and molecular simulations. Natue Machine Intelligence 2022;4:739–748 PDF. (超快速PROTAC药物设计和实验验证
  3. Y Zeng, M Luo, N Shangguan, P Shi, J Feng, J Xu, K Chen, Y Lu, W Yu, and Yuedong Yang*. Deciphering Cell Types by Integrating scATAC-seq Data with Genome Sequences Nature Computational Science 2024;4:285–298 . (利用基因序列引导实现组学数据降噪)
  4. J Rao, J Xie, Q Yuan, D Liu, Z Wang, Y Lu*, S Zheng*, Yuedong Yang*. A Variational Expectation-Maximization Framework for Balanced Multi-scale Learning of Protein and Drug Interactions. Nature Comm 2024 ( 基于Expectation-Maximization实现多尺度信息融合)
  5. Zheng S, T Zeng, C Li, B Chen, CW Coley, Yuedong Yang* , Ruibo Wu*. Deep learning driven biosynthetic pathways navigation for natural products with BioNavi-NP. Nature Comm 2022;13:3342 (天然产物逆合成预测;中国日报网海外版专题报道“Supercomputer, AI to speed up drug discoveries”
  6. Qiu J#, Xie J#,Su S, Gao Y, Meng H, Yuedong Yang* , Liao K*. Selective functionalization of hindered meta-C–H bond of o-alkylaryl ketones promoted by automation and deep learning. Chem 2022; doi:j.chempr.2022.08.015 PDF. (自动化和智能化结合加速化学反应预测科学网报道
  7. Song Y, Zheng S, Li L, Zhang X, Zhang X, Huang Z, Chen J, Zhao H, Jie Y, Wang R, Chong Y*, Shen J*, Zha Y*, Yuedong Yang* . Deep learning Enables Accurate Diagnosis of Novel Coronavirus (COVID-19) with CT images. IEEE TCBB 2021;18(6):2775-2780; PDF ( 最早的新冠CT诊断论文,Cited: >1000; 2021年度中国影像医学领域最高价值论文 排名第一)
  8. Rao J, Zhou X, Lu Y, Zhao H, Yuedong Yang* . Imputing Single-cell RNA-seq data by combining Graph Convolution and Autoencoder Neural Networks. iScience 2021; 24(5):102393; PDF (最早图网络在单细胞应用;细胞出版社2021中国年度论文)
  9. Rao J, Zheng S, Yuedong Yang* . Quantitative Evaluation of Explainable Graph Neural Networks for Molecular Property Prediction. Cell子刊Patterns 2022;100628. (构建了图网络的可解释定量评估框架
  10. Zheng S#, Rao J#, Song Y, Zhang J, Xiao X, Fang EF, Yuedong Yang* , Niu Z*. PharmKG: A Dedicated Knowledge Graph Benchmark for Biomedical Data Mining. Brief in Bioinfo 2020;bbaa344 PDF (PharmKG与Alphafold、IBM Waston等一起,被英国调研机构Deep Pharma Intelligence列为2018-2020年国际AI制药十大进展
  11. Song Y, S Zheng, Z Niu , Z Fu , Y Lu and Yuedong Yang* . Communicative Representation Learning on Attributed Molecular Graphs. International Joint Conferences on Artificial Intelligence (IJCAI) 2020 (点边通信图卷积网络CMPNN,人工智能顶会) PDF

图网络基础理论方法

1) 图神经网络算法

2) 知识图谱

PharmKG: Biomedical Knowledge Graph

蛋白质结构和功能预测

蛋白质是生物体最重要大分子之一,参与几乎所有的生命活动,准确预测蛋白质三维空间结构和折叠过程被列为21世纪重大科学难题之一。从2013年起,PI就利用深度学习技术开发出蛋白质二级结构预测SPIDER系列,是国际上最早将深度学习用于蛋白质二级结构预测的研究之一,此后不断引入多任务学习、模型的迭代训练等策略,并将结构预测从以前的二级结构离散状态转换为连续数值预测。

1) 蛋白质功能预测

GraphSite: Binding Site Prediction based on Modelled Structures by Alphafold2

2) 蛋白质结构性质预测

3) 蛋白质三维结构预测

EM-SEG: Automatic Protein Structure Constructing Method for Cryo-EM

药物智能设计

围绕药物设计全流程,开发了基于AI的全流程算法,包括药物筛选、分子优化、ADMET性质预测、化学合成路线预测等。相关代表性工作包括:

1) 药物筛选

HPC+AI for Accelerated PROTAC design
Drug-VQA: Protein-Drug Interaction Prediction

2) 药物分子优化

Meta-MO: Meta Learning Model for Molecular Optimization

3) 分子逆合成预测

人工智能+高通量实验⇒准确反应预测

多尺度多模态组学数据挖掘

随着组学数据多样化和规模化,能从多个时空尺度、不同视角全面阐释生物个体的状态,使得多组学数据分析扮演着越来越重要的角色。然而,多组学的多噪音、高维度、及变量间的复杂关系,需要借助先验知识,才能实现准确的多组学数据分析。

1) 单细胞数据分析

GraphCS: Scalable Single Cell Classification to Huge Datasets

2) 疾病多组学数据分析

COVID19-net: COVID-19 Diagnosis Method based on CT images