Reactomics 反应组学利用非靶向质谱数据中的配对质量距离(PMD)直接识别和量化化学反应——无需化合物鉴定。涵盖理论、方法(pmd R 包)以及每月更新的文献集合。

反应组学

反应组学(Reactomics)是以化学反应为研究对象的系统性学科——具体而言,通过质谱数据中观测到的配对质量距离(PMD,Paired Mass Distance)来识别并绘制生物体、环境及化学体系中的反应网络。该概念由于淼等人在2020年发表于 Communications Chemistry原始论文中正式提出:同一质谱数据集中两个离子之间的精确质量差,直接编码了连接它们的化学反应信息。

核心思想简单而有力:两个分子之间固定的质量差对应一类特定的化学反应或生物转化。通过系统梳理非靶向代谢组学数据中的配对质量距离,无需预先知道化合物的身份,即可重建样品中活跃的反应网络。

为什么反应组学重要

传统代谢组学工作流程通过鉴定化合物并将其丰度与表型关联来开展研究。这种方法固然有价值,但它将代谢物视为独立实体,而非反应网络中的节点。实际上,代谢物经由酶促反应和自发化学反应不断产生、消耗和转化——它们之间通过反应相互连接。

反应组学通过将反应关系作为研究对象来弥补这一不足。与其问"哪些代谢物在组间存在差异",反应组学更关注"哪些反应在组间存在差异"以及"样品中活跃的反应网络是什么"。这一转变带来了几个重要优势:

  • 基于反应的分析对注释缺口更具鲁棒性——PMD可针对任意峰对计算,无论峰是否已被注释。
  • 反应具有化学可解释性——PMD值2.0157(H₂)意味着还原反应;14.0157(CH₂)意味着甲基化或碳链延伸。无需查找表即可读懂网络。
  • 反应网络可跨条件、跨物种、跨样品类型进行比较,而单纯的代谢物列表往往难以做到。
  • 该方法与生化通路数据库(KEGG、HMDB反应、Reactome)天然契合,同时在注释不完整时仍可使用。

上面这些实用层面的吸引力,背后有一个值得认真追问的问题:这套方法为什么能成立? 为什么质量差能这么干净地编码化学信息?为什么同一套反应能在不同生物中反复出现?下面这张图不只是装饰——它指向离散性的真实结构性原因,根扎在物理与演化里。

PMD作为绕中心离子的量子化轨道壳层,每条壳层标注一种生化转化反应
如同量子物理中的电子轨道,配对质量差(PMD)并非连续分布——它们是量子化的。每条轨道壳层对应一种特定的生化转化反应。

量子化从何而来

上面那张轨道图不只是教学比喻。它和它所借用的物理理论在逻辑结构上是一致的:在两种情况下,连续的空间都被某个底层约束强制离散化。

在量子力学里,这个约束是 Schrödinger 方程。任何束缚电子都必须占据可数本征态中的一个;因为方程是普适的,宇宙中每个原子都共享同一套轨道结构。

在代谢里,这个约束是早期的辅因子预算。生物化学里几乎每一个反应,本质上都是从一个早在 LUCA 之前就已经存在的小型辅因子集合里转移出一个特定基团。每个辅因子交付一个固定的质量增量——这个增量就是 PMD:

辅因子(或氧化剂) 转移基团 PMD (Da) 反应类型
NAD(P)H H₂ 2.0157 还原
SAM CH₂(甲基) 14.0157 甲基化
O₂ / Fe–O / 细胞色素 O 15.9949 氧化
(同上系统) OH 17.0027 羟基化
(同上系统) H₂O 18.0106 水合 / 脱水
乙酰辅酶 A C₂H₂O 42.0106 乙酰化
ATP / 激酶 HPO₃ 79.9663 磷酸化
UDP-葡萄糖 C₆H₁₀O₅ 162.0528 糖基化

真实数据集里最高频的那些 PMD,正好是辅因子–酶基础设施能"低成本交付"的那批。化学上同样有趣、但需要不存在的辅因子或更高活化能的 PMD,根本不会高频出现。这种离散性不是任意的——它是早期生命能负担得起哪些化学转化的投影。

为什么质谱能读出这些壳层

让反应组学成立,还有一层物理量子化是容易被忽略的、但其实是必要的。我们数的那些 PMD 并不是整数质量——它们落在一些非常特定的非整数值上,正是这些非整数值把化学上不同但名义质量相同的变化区分开来。甲基化(+CH₂)的 PMD 是 14.0157 Da,碳被氮取代(+N)是 14.0031 Da,同位素替换又给出别的值。这些小数偏移并不来自有机化学——它们来自核结合能

核子结合成原子核时会释放能量,通过 E = mc² 这部分能量以质量亏损的形式被记录下来。碳-12 按约定恰好是 12;其他每种核素都带有一个反映其核子结合紧密程度的质量亏损。氢-1 是 1.00783 Da,氧-16 是 15.9949 Da,氮-14 是 14.0031 Da。这些小数偏移是量子力学层面的可观测量——它们编码强相互作用的本征态,正如电子轨道编码库仑势的本征态。

后果是直接的:让原子有离散能级的同一种物理量子化,也让分子反应有了离散的质量特征。 没有这一层,PMD 壳层在整数质量轴上会塌成一团,反应组学根本就做不成。高分辨质谱(Orbitrap、FT-ICR)本质上是一台伪装成化学仪器的核结合能探测器——它通过测量核子如何排列来读取化学信息。

所以这张轨道图在物理上是双重接地的:壳层之所以存在,是因为辅因子继承固定了早期生命能做哪些转化;壳层之所以可观测,是因为核结合给每个转化赋予了它自己独特的、量子力学上可分辨的质量亏损。电子层级的量子化让化学成为可能;核层级的量子化让化学可被读出。

演化的冻结

一个辅因子一旦成为细胞代谢的核心,就几乎无法被移除。每条下游通路都依赖它,它已经从"一种选择"升级成了"基础设施"。这跟冻结遗传密码的逻辑是一样的——局部突变无法重写它,因为整个细胞都已经在读它。

后果非常显著:高频 PMD 谱在生物的所有域之间高度保守。细菌、植物和人类共享大致相同的高频 PMD 集合,因为他们共享大致相同的辅因子集合。生物之间的差异不在谱的结构上,而在每个壳层的强度上——哪些反应被上调,哪些被压制。

这跟物理上的故事强对称。每个原子共享同一套轨道结构,因为每个原子都服从同一个 Schrödinger 方程;每个生物共享同一套 PMD 壳层结构,因为每个生物都继承了同一套被冻结的辅因子集合。通过共同的底层约束实现普适性,是这两个学科里同样的解释手法。

给化学人的一段话

这里值得带走的不是"代谢有点像量子力学,听上去比较诗意"。重点是:化学有自己货真价实的量子化原理——可从辅因子继承和演化锁定中推导出来。化学家不需要借物理学的威望来支撑这个论证——代谢反应集的离散性是它本身的现象,有它自己的物理机制(受辅因子约束的催化可行性),也有它自己的守恒律(演化冻结)。

如果物理可以说"宇宙中每个原子都有离散的能级,因为 Schrödinger 方程是普适的",化学就可以说"地球上每个细胞都有离散的反应层级,因为辅因子库是普适的"。这两个陈述形状一致,解释力也相当。

配对质量距离与化学反应

PMD概念

配对质量距离(PMD)是同一质谱数据集中检测到的两个离子之间的精确质量差。例如:

PMD (Da) 分子式变化 反应类型
2.0157 H₂ 还原 / 加氢
14.0157 CH₂ 甲基化、碳链延伸
15.9949 O 氧化(单氧)
17.0027 OH 羟基化
18.0106 H₂O 水合 / 脱水
28.0313 C₂H₄ 乙基化
42.0106 C₂H₂O 乙酰化
79.9663 HPO₃ 磷酸化
162.0528 C₆H₁₀O₅ 己糖加成(糖基化)

当两个离子之间的PMD与已知反应匹配时,它们即为该反应底物—产物对的候选。当数据集中发现大量此类配对时,即可推断该反应在所研究的生物或化学体系中处于活跃状态。

PMD网络

由具有化学意义的PMD连接的离子对构成PMD网络。节点为离子(检测到的m/z值),边以PMD(即反应类型)为标注。PMD网络以单一数据结构汇总了样品中完整的反应图景。

PMD网络的关键特性:

  • 可从任意非靶向LC-MS数据集计算,无需注释。
  • 节点的度分布反映哪些化合物代谢活性最高。
  • 比较不同条件下的PMD网络,可揭示哪些反应被上调或下调,类似差异表达分析。
  • 子网络通常对应已知生化通路,为生物学解读提供路径。

PMD网络通过pmd R包中的getchain()函数构建,该函数通过追踪连续PMD边将离子链接成反应链。

反应层定量:反应组学之所以是"组学"

反应组学最关键、也是目前最被低估的特性,是在不做化合物鉴定的前提下直接对反应做定量。文献里大量工作止步于把 PMD 拿来构建反应网络,然后通过节点反查物质鉴定来解读结果——这有用,但绕回去之后整个分析又被绑回到鉴定瓶颈上,本质上还是传统代谢组学加了一层网络可视化。

反应组学一开始就是为了跳过这个瓶颈:分析的最小单元是反应,不是分子。某个特定的 PMD——比方 15.9949 Da 的氧加成——在一组非靶向数据里可能出现成千上万次,对应几百对底物–产物离子对。每一次出现都是这个反应正在发生的一次观测。把所有出现合在一起看它在样品间的活跃度,就直接量化了氧化、甲基化、糖基化这些反应的整体强度,全程不需要任何化合物名单。这才是它配得上叫做"组学"的原因——反应就是分析对象本身

pmd R包中的getreact()函数实现了这个思路。对于每一对被指定 PMD 连起来的离子,它先看这一对在样本间的行为,然后分两种量化模式处理。

静态反应:底物和产物同涨同落

有时一个反应的底物和产物在样本间是一起涨落的——比值大致不变,但绝对强度同步变化。生化上对应的是酶不是限速步骤:转化效率稳定,样品间真正变化的是上游供应量或下游消耗量。

这种"静态"反应里最有信息量的定量是总通量——底物强度加产物强度。和大就表示整个底物–产物池子大,上游供应足。样品间这个和的差异,反映的是这个反应的上游/下游被怎样调控

动态反应:底物和产物各走各的

另一种情况是底物和产物不一起变。比值从一个样品到另一个样品在变。这通常意味着酶本身才是被调控的部分:它的活性或丰度在不同样品里不一样,所以即使底物水平相近,转化效率也不同——底物在酶被抑制时积累,产物在酶被诱导时升高。

对这类"动态"反应,有意义的定量是比值——把更稳定的那个峰放在分子(当作内参),更不稳定的那个放分母。这样得出的每样品比值,反映的是变动那一端相对参考端的变化,把"酶活动"从"样本水平丰度漂移"中剥离出来。

两种调控模式,两种读数

静态和动态两种模式合起来,刚好覆盖了一个反应在定量上能体现生物学调控的两条基本路径:

  • 静态 PMD ⇒ 上游/下游调控。 酶稳定运行,变的是底物供应或产物去路。用强度求和定量。
  • 动态 PMD ⇒ 酶层调控。 酶活是变量,底物供应大致不变。用比值定量。

概念上跟代谢控制分析(MCA)很像,但完全是从非靶向 LC-MS 数据里直接读出来的——不需要动力学测量、不需要同位素标记、不需要化合物鉴定。

为什么这才是反应组学最值得推的部分

PMD 网络作为整理非靶向 MS 数据的工具,得到了应有的关注。但只构建网络本身并没有把分析从鉴定中解放出来:想要解读一个节点,分子终归要被命名。反应层定量才是反应组学区别于"又一种网络方法"的地方——反应本身携带定量生物学信息,哪怕反应两端的分子始终是未知的。把这层反应定量当作真正的分析对象,而不只是通往化合物鉴定的中间步骤,才是反应组学最值得继续往前推的部分。

方法与工具

PMD计算

PMD分析需要高精度质量测量,通常来自Orbitrap或Q-TOF等高分辨率质谱仪器。区分同重素反应(如CO,27.9949 Da vs. C₂H₄,28.0313 Da)所需质量精度约为5 ppm或更优。

工作流程如下:

  1. 峰检测 — 从原始LC-MS数据中提取含精确m/z值的峰列表(如使用XCMS、MZmine等工具)。
  2. PMD计算 — 计算所有成对质量差,筛选与已知化学反应匹配的PMD。
  3. 网络构建 — 使用getchain()构建PMD网络,将离子链接成反应链。
  4. 定量分析 — 使用getreact()量化每个样本中各反应的活跃度。静态反应用强度求和(底物+产物),动态反应用比值(稳定峰/变动峰)定量。详细原理见上面"反应层定量"一节。

pmd R包

pmd提供了反应组学分析在R中的完整实现:

  • getpaired() — 识别由特定PMD连接的离子对
  • getchain() — 通过追踪离子列表中的反应链构建PMD网络
  • getreact() — 量化各样本中反应活性,method = "static"(强度求和,适用于上游/下游调控反应)或 method = "dynamic"(稳定峰/变动峰比值,适用于酶层调控反应);输出"反应×样本"矩阵供统计比较
  • getstd() — 提取同位素相关离子对用于质量控制
  • 可视化函数,用于网络图和反应热图

该包支持正负离子模式数据,并与标准代谢组学工作流程集成。

PMD数据库与反应列表

反应组学依赖与已知生化反应对应的PMD参考列表。pmd包内置了多个数据集:

  • keggrall — 源自KEGG酶催化反应的PMD,含反应方程式和KEGG ID
  • hmdb — 来自HMDB人类代谢物条目的高频PMD
  • omics — 整合多个数据库的反应PMD汇总表,涵盖主要组学反应
  • sda — 亚结构差异、离子替换和反应的常见PMD
  • MaConDa — 质谱污染物PMD,用于背景干扰核查

源内反应与独立峰选择

源内反应——加合物形成、源内碎裂和同位素模式——同样会在LC-MS数据集中的离子对之间产生特征性质量差。这些属于分析仪器产生的伪影而非生物反应,但遵循相同的PMD逻辑:两个离子之间固定的质量差编码了连接它们的特定过程。

这一发现是 globalstd 算法的核心依据,该算法由Yu、Olkowicz与Pawliszyn(2019)提出,并在pmd包中实现。globalstd 的关键特点是数据驱动:它不依赖预定义的加合物列表,而是从当前数据集中发现哪些质量差真正普遍存在,并以此为据定义冗余。算法分三步执行:

  1. 保留时间聚类 — 将共流出离子归为一组,认为它们来源于同一化合物。
  2. 数据驱动的高频PMD检测 — 在每个RT组内计算成对质量差。在多个组中高频出现的PMD被推断为广泛存在的加合物与中性丢失(如Na/H交换、¹³C同位素、常见溶剂加合物)。由于每个发生同一源内反应的化合物都贡献相同的PMD,这些质量差会积累出异常高的计数——而这一信号完全源自数据本身。
  3. 独立峰筛选 — 利用发现的高频PMD,每个化合物簇保留一个代表性离子,去除冗余的加合物、同位素峰和源内碎片。

最终输出一套无冗余的独立离子集合,在保留完整化学多样性的同时消除峰的多重性。无需预先了解数据集中会出现哪些加合物。

药物代谢应用

药物代谢产生一组可预测的生物转化产物。I相反应(氧化、还原、水解)和II相反应(结合反应)各对应特定PMD。反应组学支持非靶向药物代谢谱分析:给定来自药物处理生物体的样品,PMD网络可识别发生了哪些I相和II相转化,无需预先指定目标代谢物。

环境转化应用

环境样品包含经历生物和非生物转化的复杂化学物质混合物。通过计算水体、沉积物或生物组织样品的PMD网络,可在不了解母体化合物身份的情况下识别活跃的转化反应。

内源性代谢组学应用

在人类和动物代谢组学中,反应组学将测量到的代谢物丰度与产生它们的酶活性相连。血浆或尿液样品的PMD网络反映了生物体的代谢状态——哪些合成代谢和分解代谢反应最为活跃。

每月文献集

以下为每月从PubMed收录的反应组学及PMD分析相关新文献。

2026-04

全部文献

收录自原始论文(2020年)至今所有使用或扩展PMD反应组学的文献,每月更新。

方法与工具

源内反应与独立峰选择

PMD网络

环境转化应用

↳ DOM(天然有机质)转化

药物代谢应用

内源性代谢组学应用

综述

共 75 篇论文。最后更新:2026-05-03。

月度存档