最初的蛋白质结构预测工具依赖于简单的物理模型和统计学原理。20世纪70年代,工具如Chou-Fasman法开始预测蛋白质的二级结构,这种方法基于蛋白质序列中氨基酸的偏好排列来推断结构。Chou-Fasman方法是在1970年代由Peter Y. Chou和Gerald D. Fasman发展出的。这种方法是基于观察和统计分析而制定的,它根据氨基酸在已知蛋白质结构中的出现频率来预测蛋白质的二级结构。Chou和Fasman分析了大量蛋白质的氨基酸序列与其对应的二级结构,并从中计算出特定氨基酸倾向于形成α-螺旋、β-折叠或是转角结构的概率。
Zhang Yang Lab的iTASSER不仅在结构预测方面表现出色,还能预测蛋白质的功能位点和与其他蛋白质的相互作用。这一工具的开发不仅推动了结构生物学的研究,还极大地促进了生物医学和药物设计领域的发展。由于其高效的预测能力和广泛的应用场景,iTASSER已经成为生物信息学领域内不可或缺的一员。
20年代:人工智能的革命AlphaFold
2018年,DeepMind推出的AlphaFold标志了人工智能在结构预测领域的突破。AlphaFold利用深度学习,特别是卷积神经网络,从蛋白质序列直接预测其空间结构。这一方法的精度在2018年的Critical Assessment of protein Structure Prediction (CASP)竞赛中大放异彩, 打破了iTASSER多年的连冠记录,展示了深度学习方法的巨大潜力。
AlphaFold2与AlphaFold3:爆炸性提升的背后
AlphaFold2的推出伴随着一个重要的里程碑——AlphaFold Protein Structure Database的建立。这个数据库由DeepMind与欧洲生物信息研究所(EBI)合作创建,旨在为全球科研人员提供开放且易于访问的蛋白质结构数据。该数据库包含了由AlphaFold2预测的大规模蛋白质结构数据集,这些数据覆盖了多种生物体,包括人类、重要的模型生物如果蝇、斑马鱼和酵母,以及多种细菌和其他微生物。