admin管理员组文章数量:1034017
RNA 结构预测为什么比蛋白质难?
基本信息
- 英文标题:RNA function follows form – why is it so hard to predict?
- 中文标题:RNA 功能决定于其结构 —— 为什么预测它如此困难?
- 发表日期:24 March 2025
- 文章类型:TECHNOLOGY FEATURE
- 所属期刊:Nature(自然)
- 文章作者:Diana Kwon
- 文章链接:
AlphaFold 打开蛋白质预测大门,RNA却仍在门外
2020年11月的一场虚拟会议上,一项每两年举办一次的蛋白质结构预测挑战赛公布了冠军:AlphaFold。这款由 Google DeepMind 开发的计算工具以原子级精度预测了数十种蛋白质结构,取得了研究人员数十年来梦寐以求的突破。
该挑战赛名为 CASP(Critical Assessment of Protein Structure Prediction,蛋白质结构预测关键评估),自1994年起举办,旨在推动计算方法从氨基酸序列预测蛋白质三维结构的发展。参赛队伍需在比赛前对未知结构的蛋白进行预测,之后与X射线晶体学、冷冻电镜等实验数据进行对比验证。
AlphaFold 在2020年的预测结果与这些传统实验方法不相上下,自此成为结构生物学界的宠儿。AlphaFold 蛋白质结构数据库现已收录约2亿个结构,2024年其开发者因此荣获诺贝尔化学奖的一半。
但这仅限于蛋白质。2022年,CASP将挑战目标转向另一类复杂但极其关键的生物大分子:RNA。
RNA结构预测为何更难?
与蛋白质类似,RNA结构的解析也依赖昂贵且耗时的实验方法,而计算方法可以成为辅助工具。但RNA的结构预测难度更高。
香港中文大学计算机科学家李喻指出,部分原因是“历史上的忽视”:长期以来,RNA被认为不够“有趣”,因而研究较少。此外,RNA本身在分子层面具有复杂性,而现有可用于训练AI模型的数据量又非常有限。
尽管如此,研究者正变得愈发有创造力。越来越多的RNA结构预测工具正在出现,其中不少结合了人工智能(AI)的最新成果,包括类似ChatGPT这类大型语言模型(LLMs)。
“RNA折叠是一个非常困难的问题。”密苏里大学哥伦比亚分校的计算生物物理学家陈世杰(Shi-Jie Chen)承认,但他补充:“AI正变得越来越强大。”
RNA:曾被忽视的“功能分子”
长期以来,RNA被视为DNA与蛋白质之间的“中介”。尽管只有一小部分人类基因组编码蛋白质,但大量非编码DNA会被转录成RNA。过去几十年,科学家发现这些非编码RNA在正常细胞功能中扮演着至关重要的角色,也参与多种疾病的发生。
理解这些RNA如何发挥功能,仍然是一个悬而未决的课题。科学家希望通过解析RNA的三维结构来揭示其功能机制,体现“结构决定功能”的生物学经典理念。
正如李喻所说:“在生物学中,我们假设序列决定结构,结构决定功能。”
结构预测:蛋白质遥遥领先
RNA结构预测工具的发展远落后于蛋白质。即便是AlphaFold的最新版本 AlphaFold3,在RNA结构预测方面表现也十分有限。
密歇根大学系统生物学家 Lydia Freddolino 指出:“在蛋白质结构预测方面,全自动团队的表现已可媲美人类专家。但在RNA领域,我们还远未达到那个水平——所有顶级团队仍严重依赖人工干预。”
2022年与2024年的CASP赛事均加入了RNA结构预测项目。Freddolino 两次均参与比赛。2024年CASP16中获胜的队伍采用了混合方法:结合AI与基于物理的算法。陈世杰领导的团队首先使用 AlphaFold3 生成一组可能的RNA结构,然后运用物理模型探索“能量景观”,找出最可能成形的构象(该团队已将其软件授权给数家生物科技公司)。
RNA结构的特殊挑战
与蛋白质相比,RNA分子具有更灵活的骨架,且结构更加动态,在完成功能时可能发生显著构象变化。此外,RNA缺乏蛋白质中的酸性/碱性残基等化学基团,这使得其稳定连接方式更为多变,例如多样的碱基配对及金属离子参与。
Freddolino 称:“RNA片段之间以各种‘奇特又奇妙的方式’相互作用。”这使得模型之间的细微差异比蛋白质更难以识别。
此外,RNA的“化学字母表”更小。RNA只有4种碱基,而蛋白质有20种氨基酸,因此每个碱基携带的信息更少。AlphaFold 的成功在于能从大量蛋白质序列中识别氨基酸间的相互作用模式,但RNA中更难实现这一点。
数据稀缺亦是关键因素。蛋白质数据库 PDB 包含近20万个蛋白质结构,而RNA结构不到2000个。这限制了AI模型的训练空间。
麻省理工学院生物医学工程师 Jim Collins 表示:“我们已经尽力利用有限数据。但要取得突破,仍需大量结构数据的收集与整理。”
新AI工具登场
近年来,许多新AI工具被开发用于RNA结构预测。中国山东大学计算生物学家杨建义指出,2020年前,大多数方法依赖物理或数学模型设定的算法。AlphaFold 的成功激发了RNA领域尝试AI的热情。
杨建义团队开发了全自动、开源工具 trRosettaRNA,融合深度学习与 Rosetta 工具的部分模块。Rosetta 由2024年诺奖得主、华盛顿大学 David Baker 所创,用于分子结构预测。
与蛋白质一样,RNA结构也分层级:一级(序列)、二级(例如发卡结构)、三级(三维构象)和四级(复合体)。trRosettaRNA 先预测一/二级结构,再通过经典物理模型重建三级结构。杨指出,RNA的二级结构对整体功能更为关键,合理利用这一层级是成功关键。
该工具在两组独立RNA数据集上表现优异,优于多数自动预测方法。2024年CASP16中排名第四。
大语言模型也参与其中
李喻与 Collins 合作开发了另一款AI工具 RhoFold,直接从序列中推断RNA结构。其核心假设是:空间接近的核苷酸在进化中形成特定序列模式。
他们用2300万个RNA序列对模型进行训练,通过“遮掩”部分区域,让模型学会从可见片段中推断隐藏序列,从而学习结构相关的信号。
2024年11月,该团队报告称 RhoFold 可准确预测RNA结构,在多个预测目标上超越2022年CASP中排名靠前的专家团队。RhoFold 为免费开源工具,可用于研究RNA-分子相互作用,或辅助药物设计。
他们还推出了 RhoDesign,将 RhoFold 融入生成式AI设计流程。与通过结构理解功能不同,RhoDesign 是“从功能出发倒推序列”,用于快速生成目标结构的RNA序列,再在实验室验证其功能。
李喻团队用此流程合成了能识别特定小分子并发出荧光信号的RNA适体,证明该方法可用于开发诊断和治疗型RNA工具。RhoDesign 的代码也已开放共享。
人工合成功能RNA
还有团队尝试用AI“从零构建”具有功能的RNA。2024年1月,京都大学 Hirohide Saito 团队展示了一种名为 RfamGen 的生成式AI工具,可合成功能性核酶(RNA酶),其催化效率高于天然版本,包括能自切的“核开关核酶”。
从RNA突变到结构优化:AI拓展应用场景
美国加州大学伯克利分校 Jamie Cate 团队开发了AI模型,用于预测RNA突变如何提升其功能。他们的一项研究发现,当模型以RNA序列与其来源生物的最适生长温度为输入时,能预测提升核糖体耐高温能力的突变。这提示AI有望辅助改造核糖体功能。
旧金山生物技术公司 Atomic AI 开发的平台则结合 RNA 化学探测实验(如碱基配对状态检测)与深度学习模型 ATOM-1,以辅助RNA结构预测和药物靶点设计。首席AI科学家 Stephan Eismann 表示,这类AI工具可辅助研发流程,提升效率。
但他强调:“真正需要的是大量数据。”
群众参与,游戏驱动数据积累
斯坦福大学 Rhiju Das 团队开发了名为 Eterna 的在线游戏,全球玩家可参与RNA设计,通过解谜构建RNA序列,实验室再验证其功能并反馈优化。该项目已生成200万个RNA的化学图谱数据集——Ribonanza。
随后,该团队在 Kaggle 举办挑战赛,发展出名为 RibonanzaNet 的深度学习模型,预测RNA二级结构。
2025年2月底,Das 团队与CASP与 RNA-Puzzles 合作发起新挑战,目标是创建全自动RNA三维结构预测模型,精准度可与专家媲美。
AlphaFold时刻,RNA还需等待
专家普遍认为,RNA结构预测想达到蛋白质预测的成熟水平仍需时日。即便RNA研究迎来属于自己的“AlphaFold时刻”,所有预测仍需在实验中验证。
Freddolino 表示:“AlphaFold 并非万能,但它为结构生物学提供了强大工具,我们也希望RNA领域能尽快赶上。”
“功能性RNA在所有生命领域中都至关重要,” 她总结说,“而我们对其结构预测的理解还处于‘婴儿期’。”
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-27,如有侵权请联系 cloudcommunity@tencent 删除开发模型设计数据工具RNA 结构预测为什么比蛋白质难?
基本信息
- 英文标题:RNA function follows form – why is it so hard to predict?
- 中文标题:RNA 功能决定于其结构 —— 为什么预测它如此困难?
- 发表日期:24 March 2025
- 文章类型:TECHNOLOGY FEATURE
- 所属期刊:Nature(自然)
- 文章作者:Diana Kwon
- 文章链接:
AlphaFold 打开蛋白质预测大门,RNA却仍在门外
2020年11月的一场虚拟会议上,一项每两年举办一次的蛋白质结构预测挑战赛公布了冠军:AlphaFold。这款由 Google DeepMind 开发的计算工具以原子级精度预测了数十种蛋白质结构,取得了研究人员数十年来梦寐以求的突破。
该挑战赛名为 CASP(Critical Assessment of Protein Structure Prediction,蛋白质结构预测关键评估),自1994年起举办,旨在推动计算方法从氨基酸序列预测蛋白质三维结构的发展。参赛队伍需在比赛前对未知结构的蛋白进行预测,之后与X射线晶体学、冷冻电镜等实验数据进行对比验证。
AlphaFold 在2020年的预测结果与这些传统实验方法不相上下,自此成为结构生物学界的宠儿。AlphaFold 蛋白质结构数据库现已收录约2亿个结构,2024年其开发者因此荣获诺贝尔化学奖的一半。
但这仅限于蛋白质。2022年,CASP将挑战目标转向另一类复杂但极其关键的生物大分子:RNA。
RNA结构预测为何更难?
与蛋白质类似,RNA结构的解析也依赖昂贵且耗时的实验方法,而计算方法可以成为辅助工具。但RNA的结构预测难度更高。
香港中文大学计算机科学家李喻指出,部分原因是“历史上的忽视”:长期以来,RNA被认为不够“有趣”,因而研究较少。此外,RNA本身在分子层面具有复杂性,而现有可用于训练AI模型的数据量又非常有限。
尽管如此,研究者正变得愈发有创造力。越来越多的RNA结构预测工具正在出现,其中不少结合了人工智能(AI)的最新成果,包括类似ChatGPT这类大型语言模型(LLMs)。
“RNA折叠是一个非常困难的问题。”密苏里大学哥伦比亚分校的计算生物物理学家陈世杰(Shi-Jie Chen)承认,但他补充:“AI正变得越来越强大。”
RNA:曾被忽视的“功能分子”
长期以来,RNA被视为DNA与蛋白质之间的“中介”。尽管只有一小部分人类基因组编码蛋白质,但大量非编码DNA会被转录成RNA。过去几十年,科学家发现这些非编码RNA在正常细胞功能中扮演着至关重要的角色,也参与多种疾病的发生。
理解这些RNA如何发挥功能,仍然是一个悬而未决的课题。科学家希望通过解析RNA的三维结构来揭示其功能机制,体现“结构决定功能”的生物学经典理念。
正如李喻所说:“在生物学中,我们假设序列决定结构,结构决定功能。”
结构预测:蛋白质遥遥领先
RNA结构预测工具的发展远落后于蛋白质。即便是AlphaFold的最新版本 AlphaFold3,在RNA结构预测方面表现也十分有限。
密歇根大学系统生物学家 Lydia Freddolino 指出:“在蛋白质结构预测方面,全自动团队的表现已可媲美人类专家。但在RNA领域,我们还远未达到那个水平——所有顶级团队仍严重依赖人工干预。”
2022年与2024年的CASP赛事均加入了RNA结构预测项目。Freddolino 两次均参与比赛。2024年CASP16中获胜的队伍采用了混合方法:结合AI与基于物理的算法。陈世杰领导的团队首先使用 AlphaFold3 生成一组可能的RNA结构,然后运用物理模型探索“能量景观”,找出最可能成形的构象(该团队已将其软件授权给数家生物科技公司)。
RNA结构的特殊挑战
与蛋白质相比,RNA分子具有更灵活的骨架,且结构更加动态,在完成功能时可能发生显著构象变化。此外,RNA缺乏蛋白质中的酸性/碱性残基等化学基团,这使得其稳定连接方式更为多变,例如多样的碱基配对及金属离子参与。
Freddolino 称:“RNA片段之间以各种‘奇特又奇妙的方式’相互作用。”这使得模型之间的细微差异比蛋白质更难以识别。
此外,RNA的“化学字母表”更小。RNA只有4种碱基,而蛋白质有20种氨基酸,因此每个碱基携带的信息更少。AlphaFold 的成功在于能从大量蛋白质序列中识别氨基酸间的相互作用模式,但RNA中更难实现这一点。
数据稀缺亦是关键因素。蛋白质数据库 PDB 包含近20万个蛋白质结构,而RNA结构不到2000个。这限制了AI模型的训练空间。
麻省理工学院生物医学工程师 Jim Collins 表示:“我们已经尽力利用有限数据。但要取得突破,仍需大量结构数据的收集与整理。”
新AI工具登场
近年来,许多新AI工具被开发用于RNA结构预测。中国山东大学计算生物学家杨建义指出,2020年前,大多数方法依赖物理或数学模型设定的算法。AlphaFold 的成功激发了RNA领域尝试AI的热情。
杨建义团队开发了全自动、开源工具 trRosettaRNA,融合深度学习与 Rosetta 工具的部分模块。Rosetta 由2024年诺奖得主、华盛顿大学 David Baker 所创,用于分子结构预测。
与蛋白质一样,RNA结构也分层级:一级(序列)、二级(例如发卡结构)、三级(三维构象)和四级(复合体)。trRosettaRNA 先预测一/二级结构,再通过经典物理模型重建三级结构。杨指出,RNA的二级结构对整体功能更为关键,合理利用这一层级是成功关键。
该工具在两组独立RNA数据集上表现优异,优于多数自动预测方法。2024年CASP16中排名第四。
大语言模型也参与其中
李喻与 Collins 合作开发了另一款AI工具 RhoFold,直接从序列中推断RNA结构。其核心假设是:空间接近的核苷酸在进化中形成特定序列模式。
他们用2300万个RNA序列对模型进行训练,通过“遮掩”部分区域,让模型学会从可见片段中推断隐藏序列,从而学习结构相关的信号。
2024年11月,该团队报告称 RhoFold 可准确预测RNA结构,在多个预测目标上超越2022年CASP中排名靠前的专家团队。RhoFold 为免费开源工具,可用于研究RNA-分子相互作用,或辅助药物设计。
他们还推出了 RhoDesign,将 RhoFold 融入生成式AI设计流程。与通过结构理解功能不同,RhoDesign 是“从功能出发倒推序列”,用于快速生成目标结构的RNA序列,再在实验室验证其功能。
李喻团队用此流程合成了能识别特定小分子并发出荧光信号的RNA适体,证明该方法可用于开发诊断和治疗型RNA工具。RhoDesign 的代码也已开放共享。
人工合成功能RNA
还有团队尝试用AI“从零构建”具有功能的RNA。2024年1月,京都大学 Hirohide Saito 团队展示了一种名为 RfamGen 的生成式AI工具,可合成功能性核酶(RNA酶),其催化效率高于天然版本,包括能自切的“核开关核酶”。
从RNA突变到结构优化:AI拓展应用场景
美国加州大学伯克利分校 Jamie Cate 团队开发了AI模型,用于预测RNA突变如何提升其功能。他们的一项研究发现,当模型以RNA序列与其来源生物的最适生长温度为输入时,能预测提升核糖体耐高温能力的突变。这提示AI有望辅助改造核糖体功能。
旧金山生物技术公司 Atomic AI 开发的平台则结合 RNA 化学探测实验(如碱基配对状态检测)与深度学习模型 ATOM-1,以辅助RNA结构预测和药物靶点设计。首席AI科学家 Stephan Eismann 表示,这类AI工具可辅助研发流程,提升效率。
但他强调:“真正需要的是大量数据。”
群众参与,游戏驱动数据积累
斯坦福大学 Rhiju Das 团队开发了名为 Eterna 的在线游戏,全球玩家可参与RNA设计,通过解谜构建RNA序列,实验室再验证其功能并反馈优化。该项目已生成200万个RNA的化学图谱数据集——Ribonanza。
随后,该团队在 Kaggle 举办挑战赛,发展出名为 RibonanzaNet 的深度学习模型,预测RNA二级结构。
2025年2月底,Das 团队与CASP与 RNA-Puzzles 合作发起新挑战,目标是创建全自动RNA三维结构预测模型,精准度可与专家媲美。
AlphaFold时刻,RNA还需等待
专家普遍认为,RNA结构预测想达到蛋白质预测的成熟水平仍需时日。即便RNA研究迎来属于自己的“AlphaFold时刻”,所有预测仍需在实验中验证。
Freddolino 表示:“AlphaFold 并非万能,但它为结构生物学提供了强大工具,我们也希望RNA领域能尽快赶上。”
“功能性RNA在所有生命领域中都至关重要,” 她总结说,“而我们对其结构预测的理解还处于‘婴儿期’。”
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-27,如有侵权请联系 cloudcommunity@tencent 删除开发模型设计数据工具本文标签: RNA 结构预测为什么比蛋白质难
版权声明:本文标题:RNA 结构预测为什么比蛋白质难? 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://it.en369.cn/jiaocheng/1748112992a2255293.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论