admin管理员组

文章数量:1037775

2025 的 KEGG 数据库都更新了什么?

Basic Information

  • 英文标题:KEGG: biological systems database as a model of the real world
  • 中文标题:KEGG:生物系统数据库作为真实世界的模型
  • 发表日期:17 October 2024
  • 文章类型:Database Issue
  • 所属期刊:Nucleic Acids Research
  • 文章作者:Minoru Kanehisa | Mari Ishiguro-Watanabe
  • 文章链接:

Abstract

  1. KEGG(/)是一个数据库资源,用于表示和分析生物系统。
  2. 通路图是KEGG中的主要数据集,代表细胞和有机体在分子相互作用和反应网络方面的系统功能。
  3. KEGG同源性(KO)系统是一种机制,用于将基因和蛋白质与通路图及其他分子网络联系起来。
  4. 每个KO都是一个通用的基因标识符,每个通路图都是由KO节点组成的网络。
  5. 这种架构使KEGG通路映射能够揭示分配给基因组和元基因组的KO的系统特性。
  6. KO的其他角色包括通过分类学映射来表征基因组群中的保守基因和基因单元。
  7. 已经开发了一种新工具,用于识别染色体中的保守基因顺序,在该工具中基因顺序被视为KO序列。
  8. 此外,从病毒蛋白计算生成了一种新的数据集称为VOG(病毒同源性组),并扩展到细胞生物的蛋白质,允许基因顺序作为VOG序列进行比较。
  9. 结合这些数据集和分析工具,正在开发新型通路图,以呈现涉及多个基因组群的生物过程的全局视图。

Introduction

Para_01
  1. 自1995年以来,KEGG数据库(1,2)作为生物系统的计算机模型被开发出来,例如细胞和有机体,通过捕捉和组织文献中报道的知识。
  2. KEGG模型由基因和分子的分子构建块、相互作用和反应的分子网络以及从构建块到网络的链接机制组成。
  3. 这些实现为一系列数据库。
  4. 最显著的是,基因组中的基因(GENES数据库)通过KEGG同源性(KO)系统(KO数据库)与KEGG通路图(PATHWAY数据库)相关联。
  5. 通路图和其他KEGG分子网络使用KEG同源性的功能同源物作为网络节点,以通用的方式开发,以便将特定有机体中的实验知识推广到其他有机体。
  6. 每个KO都是根据实验证据手动定义的,并且每个KO的分组既手动又通过计算扩展,以涵盖一组完整的基因组,称为KEGG有机体。
  7. 因此,一旦任何基因组中的基因分配了KO标识符(K编号),特定有机体版本的分子网络可以重建,从而揭示隐藏在基因组中的细胞和有机体层面的特征。
Para_02
  1. 随着基因敲除(KOs)技术的不断进步和KEGG生物体数量的增加,KEGG模型可能有助于分析地球环境下的生物圈这一开放系统。
  2. 我们最近发布了一张简单的氮循环路径图(map01310),该图展示了不同化学转化过程中不同生物群组的作用。
  3. 生物圈分析的另一个方面是细胞生物与病毒的共同进化。
  4. 我们开发了一个通过计算生成的病毒同源蛋白组(VOGs)数据集,其中包含了病毒蛋白质中的同源关系。
  5. 这些数据集随后被扩展到细胞生物的蛋白质上,以便描述病毒-生物关系中的保守基因和保守基因簇。
  6. 本文报告了过去两年中的这些以及其他一些发展。

Overview of KEGG

Database

数据库

Para_03
  1. KEGG()是一个用于表示和分析生物系统的数据库资源。
  2. 如图1所示,它由十六个手动维护的数据库组成,这些数据库代表了(i)系统信息类别中的分子网络系统,(ii)基因组信息类别中的遗传构建块,(iii)化学信息类别中的化学构建块以及(iv)健康信息类别中的疾病相关扰动系统。
  3. 每个数据对象都通过KEGG标识符(kid)进行识别,该标识符有两种形式。
  4. 一种简单的形式用于KEGG原始的数据集,由一个与数据集相关的前缀后跟一个五位数组成。
  5. 一种组合的形式用于从外部引入的数据集,由数据集名称和条目名称通过冒号分隔组成。
  6. 对于系统信息类别中的三个数据库PATHWAY、BRITE和MODULE,路径图的分子网络对象、Brite层次结构和KEGG模块从手动创建的参考对象扩展到计算生成的特定于生物体的对象,例如从map01100(参考代谢途径)到hsa01100(人类代谢途径)。

图片说明

◉ KEGG 包含存储在四个类别中的十六个数据库的各种数据对象。◉ 每个对象(数据库条目)由 KEGG 标识符(kid)识别,如这里所定义。◉ 它有两种形式:一种简单的形式,由与数据集相关的前缀后跟一个五位数的数字组成(例如 map01310),◉ 或者一种组合的形式,由数据集名称和条目名称用冒号分隔(例如 hsa:116337)。

Para_04
  1. KEGG数据库内部存储为Oracle关系数据库。
  2. 对于外部服务,生成了平面文件以便由DBGET系统处理(4),该系统已被用作KEGG中的基本检索系统。
  3. 然而,目前其搜索功能正在被SQLite接口取代,DBGET主要被用于通过KEGG标识符检索和查看数据。
  4. DBGET查看器展示了KEGG中所有数据对象的平面文件视图,并且可以通过在基准URL后附加/entry/kid来调用,如表1所示。
  5. 为五种类型的分子网络对象(表1)提供了专门的查看器,其中包括被视为基因一维网络的基因组。
  6. 其中,路径查看器、Brite查看器和基因组浏览器是称为KEGG Web Apps的JavaScript应用程序(表2),许多操作都在客户端执行。

- 图片说明

◉ 表1. KEGG 数据查看器

image

image

- 图片说明

◉ 表2. KEGG分析工具

image

image

Analysis tools

分析工具

Para_05
  1. KEGG 分析工具已经扩展和重组,如表 2 所示。
  2. KEGG Mapper 是一系列 KEGG 映射工具的集合,它最初是 KEGG 项目开始时的一个简单工具,用于搜索和着色路径图,并且多年来得到了显著扩展(5,6)。
  3. 最近,为了分析质谱数据,添加了一个特殊用途的搜索工具叫 MWsearch。
  4. 随着 Pathway 视图器和 Brite 视图器(KEGG Web 应用程序)的可用性,它们能够在客户端执行映射操作(6),KEGG Mapper 已经与这些视图器集成,尽可能地将服务器端数据库搜索操作和客户端着色和其他映射操作分开。
Para_06
  1. KEGG语法(表2)是现有工具的新名称,包括直系同源表和分类映射工具,并增加了一个新的基因顺序分析工具。截至2024年9月,GENOME数据库包含了超过1万个细胞生物(KEGG生物体)的完整基因组,覆盖了广泛的分类分布。
  2. 相应的GENES数据库包含了超过5000万个基因,KO分配率约为53%。相比之下,病毒的KO分配率非常低,只有大约8%。为了补充KOs,根据下面描述的方法,从67万个病毒蛋白中计算生成了病毒直系同源群(VOGs)。因此,KEGG语法允许在分类分组的背景下分析保守基因(KOs)、形成功能单元的保守基因集(KEGG模块)以及保守的基因顺序(保守的共线性),这可能有助于更好地理解生物圈的遗传构建模块。

New developments in KEGG

VOG (virus ortholog group)

病毒同源组(VOG)

Para_07
  1. VOG(病毒同源群)是一个使用已经建立的用于KO注释的相同资源计算生成的数据集。
  2. KEGG中的所有基因组对都会通过SSEARCH程序进行SSDB(序列相似性数据库)计算,针对氨基酸序列(蛋白质编码基因)和核苷酸序列(RNA基因)。
  3. 对于每个基因,都会生成一个基于物种的最接近相似邻居列表,并以表格形式显示,称为GFIT表,这是KO注释的基本数据集。
  4. 在SSDB计算中,vg(病毒基因)类别被视为单一物种,病毒基因之间的相似关系在旁系GFIT表中显示。
  5. 相似性的度量由修改后的同一性得分定义,该得分考虑了重叠区域(由SSEARCH给出的对齐区域)的权重min(1, overlap*2/(aalen1 + aalen2))。
  6. 所有病毒蛋白的旁系GFIT表按表格大小降序处理,并通过一种启发式方法有效地执行单链聚类生成VOG。
  7. 实际上,生成了三个VOG数据集,修改后的同一性阈值分别为30%、50%和70%,每个VOG都有一个六位数的编号标识符,分别以3、5和7开头。
  8. 这并不是一个稳定的标识符,当从RefSeq获取的GENES vg类别更新时可能会改变。
  9. 此外,还将细胞生物(KEGG生物体)的所有蛋白质与这三个数据集进行比较,以确定它们是否可以被认为属于某个VOG。
Para_08
  1. 当前 VOG 数据集的统计信息可在 KEGG 病毒页面(.html)获得。
  2. 当阈值为 30% 时,大约 90% 的病毒蛋白属于大小为 2 或更大的 VOG。
  3. 最大的 VOG 包含了 8% 的病毒蛋白,而所有其他组都小得多,每组包含 0.7% 或更少。
  4. 从 RefSeq 获取的大多数病毒蛋白是噬菌体蛋白(80%),并且最大的 VOG 也主要由噬菌体蛋白组成(93%)。
  5. 根据 RefSeq 注释,最大的 VOG 中三分之一的蛋白是假设性蛋白,并且最常见的注释术语是 HNH 内切酶。
  6. 当包括细胞生物时,约 5% 的 5000 万种蛋白质与病毒蛋白具有相似性。

Gene order alignment

基因顺序排列

Para_09
  1. 基因组比对通常是通过比对两个基因组的核苷酸序列来完成的。
  2. 在这里,基因组被视为由KOs(K编号)或VOGs(VOG编号)识别的基因序列,基因组比对是通过比对匹配的K编号或VOG编号的序列来完成的。
  3. 如前所述,53%的细胞生物基因被分配了KOs,而90%的病毒基因被分配了VOGs。
  4. 因此,这种方法显著简化了基因顺序比对的问题。
  5. 我们开发了一种新工具,用于使用Goad和Kanehisa(8)于20世纪80年代初在洛斯阿拉莫斯开发的动态规划算法,在给定阈值之上找到两个基因组中所有局部相似的基因顺序实例。
  6. 该算法的核心是通过对前向和反向路径矩阵进行逻辑乘积来进行路径修剪,除此之外,还包括不允许可负分数值的加权方案的修剪,这在Smith-Waterman算法(9)中也使用过,并作为SSEARCH程序实现。
  7. 该算法的核心在于通过逻辑乘积操作前向和反向路径矩阵来进行路径剪枝,除此之外还包含了不允许负分值的加权方案的剪枝方法,这在Smith-Waterman算法(9)中也有所应用,并且该算法作为SSEARCH程序实现。
Para_10
  1. 这个新工具作为KEGG语法套件的一部分(表2),可用于比较两个基因组。
  2. 例如,图2显示了大约1000个局部比对中的一个,当比较人和小鼠的基因顺序时,这些比对至少包含3个匹配的K编号。
  3. 比对显示了两个基因组的基因标识符以及中间的匹配K编号,<符号表示互补链。
  4. 可以检查K编号列表,以查看是否存在任何功能相关性。
  5. 该工具两次比较两个基因组,方向分别为正向-正向和正向-反向,后者在第二个基因组中标记为(r)。
  6. 当具有相同K编号的基因重复时,它们被合并为一个单元,并在输出中括号内标注重复次数。
  7. 在此示例中,匹配了不同数量的嗅觉受体(K04257)重复。
  8. 这些重复后的基因顺序被显示为人基因组的一部分以及小鼠反转基因组的一部分。

图片说明

◉ 图2. 通过比较从21325个人类基因和22435个小鼠基因转换而来的KO序列获得的一个局部基因顺序排列。基因标识符与中间匹配的K编号对齐(左上角),KO列表可以从链接中查看(右上角)。这个特定的人类染色体11和小鼠染色体9(反向)的排列包含嗅觉受体重复序列,这里显示的两个基因组图谱从hsa:116337和mmu:208098开始。基因的颜色表示KO的功能类别。要重现此结果,请访问.html,输入有机体代码hsa和mmu分别为基因组1和基因组2,然后点击‘按KO对齐’按钮。◉ To reproduce this result, access .html, enter the organism codes hsa and mmu as Genome1 and Genome2, respectively, and click on ‘Align by KOs’ button.

Para_11
  1. 为了实现更全面的分析,正在使用KO序列和VOG序列创建预计算的数据集来研究保守基因顺序。
  2. 此外,表3中总结的其他工具也可以用来获得保守基因和保守基因顺序的多序列比对视图(不包含空位)。
  3. 从KEGG项目开始,就存在同源物表格工具。
  4. 对于给定的一组K号,它显示了KEGG生物体以及现在病毒中的基因当前分配情况。
  5. 同一行中单元格相同的颜色表示这些基因彼此相邻。
  6. 更直接地检查保守基因顺序的方法是使用GENES条目页面中的‘基因簇’按钮和‘VOG簇’按钮,分别用于细胞生物和病毒。
  7. 前者基于GFIT表中的序列相似性,而后者基于VOG分配。
  8. 两者都以表格形式显示比对,并且以与同源物表格类似的方式着色单元格。

- 图片说明

◉ 表3。同源表及相关工具

image

image

Taxonomy mapping of pathway maps

通路图的分类映射

Para_12
  1. KEGG数据库使用NCBI分类系统(10)对细胞生物和病毒进行分类,在该系统中不同的分类树版本作为多个Brite层次文件实现。
  2. 细胞生物的默认文件(br08611)是根据固定的分类等级:界门纲目科属种,对三或四个字母的KEGG生物代码进行分类。
  3. 病毒的默认文件(br08621)是根据固定的分类等级:领域界门纲目科属种,对vtax标识符(图1)进行分类(11)。
Para_13
  1. 分类映射是将KOs(K编号)、模块(M编号)和VOGs的基因组内容映射到KEGG分类文件的过程。
  2. 结果显示在KEGG分类浏览器中,这是一个特殊用途的Brite层次结构查看器(6)。
  3. 该浏览器具有缩放功能,可以更改分类等级的最底层级。
  4. 最近引入了另一种分类映射的显示方式,即以广泛分类类别的汇总视图形式展示,每个类别中映射的微生物或病毒数量。
  5. (注:括号中的'6'为参考文献标识,在翻译结果中已省略。)
Para_14
  1. 原始的KEGG通道路线图概念是手动创建具有节点表示为KOs的通用地图,然后通过将KOs转换为特定基因ID来适应每个生物体,从而生成特定于生物体的通路地图。
  2. 通用(参考)通路图可以应用于一组生物体,而不仅仅是单一生物体,甚至可以应用于多组生物体。
  3. 图3是一个新的氮循环通路图(map01310),它本质上与现有的氮代谢通路图(map00910)相同,但它强调了化学物质如何作为生物地球化学循环被转化以及不同生物群体如何参与特定的转化过程。
  4. 生物群体的参与由七个KEGG模块的分类学映射表示,每个模块链接到特定的转化过程。
  5. 这可以通过选择一个模块,在路径查看器中显示为红色段,例如氮固定模块M00175(图3)。

图片说明

◉ 图3. 氮循环的KEGG途径图(),一个新的生物地球化学循环图。◉ 左侧面板中的KEGG模块可以用来显示特定的化学转化过程作为红色段,例如M00175代表固氮作用,并且还可以用于检查参与的酶基因。◉ 该图包含一个与分类映射链接,该链接在单独的窗口中(右上角)显示根据七个组成模块的涉及的有机物群组的分类类别。

Other improvements of KEGG

KO annotation

KO注释

Para_15
  1. KEGG生物的数量正在增加,目前每个月大约增加80种。
  2. 为了应对这种加速增长,KEGG注释程序分配KEGG直系同源基因(KOs)的过程已经得到简化。
  3. 首先,新基因组中的蛋白质编码基因通过BLAST与一个小的参考序列数据集进行比较,该数据集与BlastKOALA服务器提供的数据集相同(表3)。
  4. 其次,蛋白质和RNA编码基因通过SSEARCH与整个GENES数据集进行比较,并使用新的KOALA程序自动进行注释。
  5. 除了基于计算的基因组注释外,还通过创建序列组来进行手动基于KOs的注释,每当定义新的KOs或修改现有的KOs时。
  6. 每天都会检查整个GENES注释的一致性,还会提出额外的候选对象和可能的错误注释供人工干预。

Network-disease association

网络-疾病关联

Para_16
  1. KEGG MEDICUS 是一个实用资源,它将 KEGG 的健康信息类别(图1)与日本和美国市场上药品的标签结合起来,并通过分配D编号标识符来实现。
  2. 日本药品标签从JAPIC(日本药品信息中心)获得,并纳入到KEGG Oracle数据库中。
  3. FDA的国家药品代码(NDC)目录用于创建与DailyMed数据库的链接,以便获取美国的药品标签。
  4. 与KEGG的其他三个类别不同,这些类别以通用方式对细胞、生物体和生物圈层面的分子系统进行建模,健康信息类别则对人类分子系统进行建模,尤其是与人类疾病相关的扰动系统。
  5. NETWORK数据库中的网络变异图展示了参考分子网络如何被人类基因变异、病毒等扰动,以及这些扰动如何与特定疾病相关联,以及哪些药物和靶点可用。
  6. 网络变异图已经为许多代谢和信号传导网络开发出来,其中大多数与KEGG通路图相关联。
  7. 因此,DISEASE数据库中的越来越多的条目链接到了网络变异图,目前约占30%,显示出网络-疾病关联。

Data availability

Para_17
  1. KEGG是一个自给自足的数据库。
  2. 它没有得到大量的公共资金支持,主要依靠‘社区资助’模式,通过这种模式,KEGG的用户社区为数据库的发展和维护提供资金。
  3. KEGG每天更新,并在KEGG网站(/)上发布。
  4. 内容会在第二天镜像到GenomeNet网站(/)。
  5. 数据库内容和网络服务的重大更新每三个月公布一次,并附带发布编号。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-13,如有侵权请联系 cloudcommunity@tencent 删除网络系统数据库工具数据

2025 的 KEGG 数据库都更新了什么?

Basic Information

  • 英文标题:KEGG: biological systems database as a model of the real world
  • 中文标题:KEGG:生物系统数据库作为真实世界的模型
  • 发表日期:17 October 2024
  • 文章类型:Database Issue
  • 所属期刊:Nucleic Acids Research
  • 文章作者:Minoru Kanehisa | Mari Ishiguro-Watanabe
  • 文章链接:

Abstract

  1. KEGG(/)是一个数据库资源,用于表示和分析生物系统。
  2. 通路图是KEGG中的主要数据集,代表细胞和有机体在分子相互作用和反应网络方面的系统功能。
  3. KEGG同源性(KO)系统是一种机制,用于将基因和蛋白质与通路图及其他分子网络联系起来。
  4. 每个KO都是一个通用的基因标识符,每个通路图都是由KO节点组成的网络。
  5. 这种架构使KEGG通路映射能够揭示分配给基因组和元基因组的KO的系统特性。
  6. KO的其他角色包括通过分类学映射来表征基因组群中的保守基因和基因单元。
  7. 已经开发了一种新工具,用于识别染色体中的保守基因顺序,在该工具中基因顺序被视为KO序列。
  8. 此外,从病毒蛋白计算生成了一种新的数据集称为VOG(病毒同源性组),并扩展到细胞生物的蛋白质,允许基因顺序作为VOG序列进行比较。
  9. 结合这些数据集和分析工具,正在开发新型通路图,以呈现涉及多个基因组群的生物过程的全局视图。

Introduction

Para_01
  1. 自1995年以来,KEGG数据库(1,2)作为生物系统的计算机模型被开发出来,例如细胞和有机体,通过捕捉和组织文献中报道的知识。
  2. KEGG模型由基因和分子的分子构建块、相互作用和反应的分子网络以及从构建块到网络的链接机制组成。
  3. 这些实现为一系列数据库。
  4. 最显著的是,基因组中的基因(GENES数据库)通过KEGG同源性(KO)系统(KO数据库)与KEGG通路图(PATHWAY数据库)相关联。
  5. 通路图和其他KEGG分子网络使用KEG同源性的功能同源物作为网络节点,以通用的方式开发,以便将特定有机体中的实验知识推广到其他有机体。
  6. 每个KO都是根据实验证据手动定义的,并且每个KO的分组既手动又通过计算扩展,以涵盖一组完整的基因组,称为KEGG有机体。
  7. 因此,一旦任何基因组中的基因分配了KO标识符(K编号),特定有机体版本的分子网络可以重建,从而揭示隐藏在基因组中的细胞和有机体层面的特征。
Para_02
  1. 随着基因敲除(KOs)技术的不断进步和KEGG生物体数量的增加,KEGG模型可能有助于分析地球环境下的生物圈这一开放系统。
  2. 我们最近发布了一张简单的氮循环路径图(map01310),该图展示了不同化学转化过程中不同生物群组的作用。
  3. 生物圈分析的另一个方面是细胞生物与病毒的共同进化。
  4. 我们开发了一个通过计算生成的病毒同源蛋白组(VOGs)数据集,其中包含了病毒蛋白质中的同源关系。
  5. 这些数据集随后被扩展到细胞生物的蛋白质上,以便描述病毒-生物关系中的保守基因和保守基因簇。
  6. 本文报告了过去两年中的这些以及其他一些发展。

Overview of KEGG

Database

数据库

Para_03
  1. KEGG()是一个用于表示和分析生物系统的数据库资源。
  2. 如图1所示,它由十六个手动维护的数据库组成,这些数据库代表了(i)系统信息类别中的分子网络系统,(ii)基因组信息类别中的遗传构建块,(iii)化学信息类别中的化学构建块以及(iv)健康信息类别中的疾病相关扰动系统。
  3. 每个数据对象都通过KEGG标识符(kid)进行识别,该标识符有两种形式。
  4. 一种简单的形式用于KEGG原始的数据集,由一个与数据集相关的前缀后跟一个五位数组成。
  5. 一种组合的形式用于从外部引入的数据集,由数据集名称和条目名称通过冒号分隔组成。
  6. 对于系统信息类别中的三个数据库PATHWAY、BRITE和MODULE,路径图的分子网络对象、Brite层次结构和KEGG模块从手动创建的参考对象扩展到计算生成的特定于生物体的对象,例如从map01100(参考代谢途径)到hsa01100(人类代谢途径)。

图片说明

◉ KEGG 包含存储在四个类别中的十六个数据库的各种数据对象。◉ 每个对象(数据库条目)由 KEGG 标识符(kid)识别,如这里所定义。◉ 它有两种形式:一种简单的形式,由与数据集相关的前缀后跟一个五位数的数字组成(例如 map01310),◉ 或者一种组合的形式,由数据集名称和条目名称用冒号分隔(例如 hsa:116337)。

Para_04
  1. KEGG数据库内部存储为Oracle关系数据库。
  2. 对于外部服务,生成了平面文件以便由DBGET系统处理(4),该系统已被用作KEGG中的基本检索系统。
  3. 然而,目前其搜索功能正在被SQLite接口取代,DBGET主要被用于通过KEGG标识符检索和查看数据。
  4. DBGET查看器展示了KEGG中所有数据对象的平面文件视图,并且可以通过在基准URL后附加/entry/kid来调用,如表1所示。
  5. 为五种类型的分子网络对象(表1)提供了专门的查看器,其中包括被视为基因一维网络的基因组。
  6. 其中,路径查看器、Brite查看器和基因组浏览器是称为KEGG Web Apps的JavaScript应用程序(表2),许多操作都在客户端执行。

- 图片说明

◉ 表1. KEGG 数据查看器

image

image

- 图片说明

◉ 表2. KEGG分析工具

image

image

Analysis tools

分析工具

Para_05
  1. KEGG 分析工具已经扩展和重组,如表 2 所示。
  2. KEGG Mapper 是一系列 KEGG 映射工具的集合,它最初是 KEGG 项目开始时的一个简单工具,用于搜索和着色路径图,并且多年来得到了显著扩展(5,6)。
  3. 最近,为了分析质谱数据,添加了一个特殊用途的搜索工具叫 MWsearch。
  4. 随着 Pathway 视图器和 Brite 视图器(KEGG Web 应用程序)的可用性,它们能够在客户端执行映射操作(6),KEGG Mapper 已经与这些视图器集成,尽可能地将服务器端数据库搜索操作和客户端着色和其他映射操作分开。
Para_06
  1. KEGG语法(表2)是现有工具的新名称,包括直系同源表和分类映射工具,并增加了一个新的基因顺序分析工具。截至2024年9月,GENOME数据库包含了超过1万个细胞生物(KEGG生物体)的完整基因组,覆盖了广泛的分类分布。
  2. 相应的GENES数据库包含了超过5000万个基因,KO分配率约为53%。相比之下,病毒的KO分配率非常低,只有大约8%。为了补充KOs,根据下面描述的方法,从67万个病毒蛋白中计算生成了病毒直系同源群(VOGs)。因此,KEGG语法允许在分类分组的背景下分析保守基因(KOs)、形成功能单元的保守基因集(KEGG模块)以及保守的基因顺序(保守的共线性),这可能有助于更好地理解生物圈的遗传构建模块。

New developments in KEGG

VOG (virus ortholog group)

病毒同源组(VOG)

Para_07
  1. VOG(病毒同源群)是一个使用已经建立的用于KO注释的相同资源计算生成的数据集。
  2. KEGG中的所有基因组对都会通过SSEARCH程序进行SSDB(序列相似性数据库)计算,针对氨基酸序列(蛋白质编码基因)和核苷酸序列(RNA基因)。
  3. 对于每个基因,都会生成一个基于物种的最接近相似邻居列表,并以表格形式显示,称为GFIT表,这是KO注释的基本数据集。
  4. 在SSDB计算中,vg(病毒基因)类别被视为单一物种,病毒基因之间的相似关系在旁系GFIT表中显示。
  5. 相似性的度量由修改后的同一性得分定义,该得分考虑了重叠区域(由SSEARCH给出的对齐区域)的权重min(1, overlap*2/(aalen1 + aalen2))。
  6. 所有病毒蛋白的旁系GFIT表按表格大小降序处理,并通过一种启发式方法有效地执行单链聚类生成VOG。
  7. 实际上,生成了三个VOG数据集,修改后的同一性阈值分别为30%、50%和70%,每个VOG都有一个六位数的编号标识符,分别以3、5和7开头。
  8. 这并不是一个稳定的标识符,当从RefSeq获取的GENES vg类别更新时可能会改变。
  9. 此外,还将细胞生物(KEGG生物体)的所有蛋白质与这三个数据集进行比较,以确定它们是否可以被认为属于某个VOG。
Para_08
  1. 当前 VOG 数据集的统计信息可在 KEGG 病毒页面(.html)获得。
  2. 当阈值为 30% 时,大约 90% 的病毒蛋白属于大小为 2 或更大的 VOG。
  3. 最大的 VOG 包含了 8% 的病毒蛋白,而所有其他组都小得多,每组包含 0.7% 或更少。
  4. 从 RefSeq 获取的大多数病毒蛋白是噬菌体蛋白(80%),并且最大的 VOG 也主要由噬菌体蛋白组成(93%)。
  5. 根据 RefSeq 注释,最大的 VOG 中三分之一的蛋白是假设性蛋白,并且最常见的注释术语是 HNH 内切酶。
  6. 当包括细胞生物时,约 5% 的 5000 万种蛋白质与病毒蛋白具有相似性。

Gene order alignment

基因顺序排列

Para_09
  1. 基因组比对通常是通过比对两个基因组的核苷酸序列来完成的。
  2. 在这里,基因组被视为由KOs(K编号)或VOGs(VOG编号)识别的基因序列,基因组比对是通过比对匹配的K编号或VOG编号的序列来完成的。
  3. 如前所述,53%的细胞生物基因被分配了KOs,而90%的病毒基因被分配了VOGs。
  4. 因此,这种方法显著简化了基因顺序比对的问题。
  5. 我们开发了一种新工具,用于使用Goad和Kanehisa(8)于20世纪80年代初在洛斯阿拉莫斯开发的动态规划算法,在给定阈值之上找到两个基因组中所有局部相似的基因顺序实例。
  6. 该算法的核心是通过对前向和反向路径矩阵进行逻辑乘积来进行路径修剪,除此之外,还包括不允许可负分数值的加权方案的修剪,这在Smith-Waterman算法(9)中也使用过,并作为SSEARCH程序实现。
  7. 该算法的核心在于通过逻辑乘积操作前向和反向路径矩阵来进行路径剪枝,除此之外还包含了不允许负分值的加权方案的剪枝方法,这在Smith-Waterman算法(9)中也有所应用,并且该算法作为SSEARCH程序实现。
Para_10
  1. 这个新工具作为KEGG语法套件的一部分(表2),可用于比较两个基因组。
  2. 例如,图2显示了大约1000个局部比对中的一个,当比较人和小鼠的基因顺序时,这些比对至少包含3个匹配的K编号。
  3. 比对显示了两个基因组的基因标识符以及中间的匹配K编号,<符号表示互补链。
  4. 可以检查K编号列表,以查看是否存在任何功能相关性。
  5. 该工具两次比较两个基因组,方向分别为正向-正向和正向-反向,后者在第二个基因组中标记为(r)。
  6. 当具有相同K编号的基因重复时,它们被合并为一个单元,并在输出中括号内标注重复次数。
  7. 在此示例中,匹配了不同数量的嗅觉受体(K04257)重复。
  8. 这些重复后的基因顺序被显示为人基因组的一部分以及小鼠反转基因组的一部分。

图片说明

◉ 图2. 通过比较从21325个人类基因和22435个小鼠基因转换而来的KO序列获得的一个局部基因顺序排列。基因标识符与中间匹配的K编号对齐(左上角),KO列表可以从链接中查看(右上角)。这个特定的人类染色体11和小鼠染色体9(反向)的排列包含嗅觉受体重复序列,这里显示的两个基因组图谱从hsa:116337和mmu:208098开始。基因的颜色表示KO的功能类别。要重现此结果,请访问.html,输入有机体代码hsa和mmu分别为基因组1和基因组2,然后点击‘按KO对齐’按钮。◉ To reproduce this result, access .html, enter the organism codes hsa and mmu as Genome1 and Genome2, respectively, and click on ‘Align by KOs’ button.

Para_11
  1. 为了实现更全面的分析,正在使用KO序列和VOG序列创建预计算的数据集来研究保守基因顺序。
  2. 此外,表3中总结的其他工具也可以用来获得保守基因和保守基因顺序的多序列比对视图(不包含空位)。
  3. 从KEGG项目开始,就存在同源物表格工具。
  4. 对于给定的一组K号,它显示了KEGG生物体以及现在病毒中的基因当前分配情况。
  5. 同一行中单元格相同的颜色表示这些基因彼此相邻。
  6. 更直接地检查保守基因顺序的方法是使用GENES条目页面中的‘基因簇’按钮和‘VOG簇’按钮,分别用于细胞生物和病毒。
  7. 前者基于GFIT表中的序列相似性,而后者基于VOG分配。
  8. 两者都以表格形式显示比对,并且以与同源物表格类似的方式着色单元格。

- 图片说明

◉ 表3。同源表及相关工具

image

image

Taxonomy mapping of pathway maps

通路图的分类映射

Para_12
  1. KEGG数据库使用NCBI分类系统(10)对细胞生物和病毒进行分类,在该系统中不同的分类树版本作为多个Brite层次文件实现。
  2. 细胞生物的默认文件(br08611)是根据固定的分类等级:界门纲目科属种,对三或四个字母的KEGG生物代码进行分类。
  3. 病毒的默认文件(br08621)是根据固定的分类等级:领域界门纲目科属种,对vtax标识符(图1)进行分类(11)。
Para_13
  1. 分类映射是将KOs(K编号)、模块(M编号)和VOGs的基因组内容映射到KEGG分类文件的过程。
  2. 结果显示在KEGG分类浏览器中,这是一个特殊用途的Brite层次结构查看器(6)。
  3. 该浏览器具有缩放功能,可以更改分类等级的最底层级。
  4. 最近引入了另一种分类映射的显示方式,即以广泛分类类别的汇总视图形式展示,每个类别中映射的微生物或病毒数量。
  5. (注:括号中的'6'为参考文献标识,在翻译结果中已省略。)
Para_14
  1. 原始的KEGG通道路线图概念是手动创建具有节点表示为KOs的通用地图,然后通过将KOs转换为特定基因ID来适应每个生物体,从而生成特定于生物体的通路地图。
  2. 通用(参考)通路图可以应用于一组生物体,而不仅仅是单一生物体,甚至可以应用于多组生物体。
  3. 图3是一个新的氮循环通路图(map01310),它本质上与现有的氮代谢通路图(map00910)相同,但它强调了化学物质如何作为生物地球化学循环被转化以及不同生物群体如何参与特定的转化过程。
  4. 生物群体的参与由七个KEGG模块的分类学映射表示,每个模块链接到特定的转化过程。
  5. 这可以通过选择一个模块,在路径查看器中显示为红色段,例如氮固定模块M00175(图3)。

图片说明

◉ 图3. 氮循环的KEGG途径图(),一个新的生物地球化学循环图。◉ 左侧面板中的KEGG模块可以用来显示特定的化学转化过程作为红色段,例如M00175代表固氮作用,并且还可以用于检查参与的酶基因。◉ 该图包含一个与分类映射链接,该链接在单独的窗口中(右上角)显示根据七个组成模块的涉及的有机物群组的分类类别。

Other improvements of KEGG

KO annotation

KO注释

Para_15
  1. KEGG生物的数量正在增加,目前每个月大约增加80种。
  2. 为了应对这种加速增长,KEGG注释程序分配KEGG直系同源基因(KOs)的过程已经得到简化。
  3. 首先,新基因组中的蛋白质编码基因通过BLAST与一个小的参考序列数据集进行比较,该数据集与BlastKOALA服务器提供的数据集相同(表3)。
  4. 其次,蛋白质和RNA编码基因通过SSEARCH与整个GENES数据集进行比较,并使用新的KOALA程序自动进行注释。
  5. 除了基于计算的基因组注释外,还通过创建序列组来进行手动基于KOs的注释,每当定义新的KOs或修改现有的KOs时。
  6. 每天都会检查整个GENES注释的一致性,还会提出额外的候选对象和可能的错误注释供人工干预。

Network-disease association

网络-疾病关联

Para_16
  1. KEGG MEDICUS 是一个实用资源,它将 KEGG 的健康信息类别(图1)与日本和美国市场上药品的标签结合起来,并通过分配D编号标识符来实现。
  2. 日本药品标签从JAPIC(日本药品信息中心)获得,并纳入到KEGG Oracle数据库中。
  3. FDA的国家药品代码(NDC)目录用于创建与DailyMed数据库的链接,以便获取美国的药品标签。
  4. 与KEGG的其他三个类别不同,这些类别以通用方式对细胞、生物体和生物圈层面的分子系统进行建模,健康信息类别则对人类分子系统进行建模,尤其是与人类疾病相关的扰动系统。
  5. NETWORK数据库中的网络变异图展示了参考分子网络如何被人类基因变异、病毒等扰动,以及这些扰动如何与特定疾病相关联,以及哪些药物和靶点可用。
  6. 网络变异图已经为许多代谢和信号传导网络开发出来,其中大多数与KEGG通路图相关联。
  7. 因此,DISEASE数据库中的越来越多的条目链接到了网络变异图,目前约占30%,显示出网络-疾病关联。

Data availability

Para_17
  1. KEGG是一个自给自足的数据库。
  2. 它没有得到大量的公共资金支持,主要依靠‘社区资助’模式,通过这种模式,KEGG的用户社区为数据库的发展和维护提供资金。
  3. KEGG每天更新,并在KEGG网站(/)上发布。
  4. 内容会在第二天镜像到GenomeNet网站(/)。
  5. 数据库内容和网络服务的重大更新每三个月公布一次,并附带发布编号。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-13,如有侵权请联系 cloudcommunity@tencent 删除网络系统数据库工具数据

本文标签: 2025 的 KEGG 数据库都更新了什么