[JAMA述评] 迈向个体化治疗：评估随机临床试验中疗效的异质性

临床医生知道，个别病人对某一特定治疗的反应可能不同，在治疗的随机试验中报告的总体治疗效果可能并不直接适用于临床实践中的所有病人。1 确定个别病人的治疗效果需要比较该病人接受治疗时的结果与同一病人在同一时间接受对照治疗时的结果，这种比较在传统的平行组试验设计中是无法进行的。一个实用的替代方法是研究不同组别的病人之间治疗效果的异质性（变化），按基线人口学或临床特征分类，如年龄或结果的风险因素。

在本期《美国医学会杂志》中，Goligher及其同事3利用3项随机平台试验的汇总数据，探讨了当代统计技术检测治疗效果异质性的能力，这些试验评估了治疗剂量肝素对早期大流行中因COVID-19住院的病人的无器官支持天数和全因死亡率的影响。他们比较了识别治疗效果异质性的3种方法：(1)传统的一次变数的亚组分析；(2)风险评分分析，即按试验结果的预测风险对患者进行分组；以及(3)效果评分分析，即按预测治疗效果对患者进行分组。这3种方法产生了一致的结果，表明身体质量指数（BMI）小于30的患者和发病时有中度严重的COVID-19的患者似乎受益，而BMI大于等于30和发病时有严重的COVID-19的患者没有受益，可能受到伤害。这些发现强调了在随机试验中评估治疗效果异质性的必要性：如果这些试验评估了COVID-19住院患者的治疗肝素效果，而没有按疾病严重程度进行分层，那么总体治疗效果可能接近于零，从而掩盖了临床上有意义的患者亚组之间不同的获益和伤害信号。

这篇社论将试图解释Goligher及其同事所做努力的理由，将其置于更广泛的方法学背景中，并为未来随机试验中的异质性评估提供建议。

在医学文献中，考察治疗效果异质性的传统亚组分析是无处不在的。研究者按临床变量（例如，疾病严重程度或BMI类别）对试验参与者进行分组，并逐一评估各亚组的效果是否具有异质性（Goligher及其同事的第一种方法）。尽管这种方法很常见，但也带来了一些挑战。4,5 试验通常没有足够的统计能力来检测亚组之间的差异，因此出现假阴性结果的风险很大。同时，进行多个亚组分析会增加假阳性结果的风险。尽管这些挑战可以通过诸如严格的预指定比较、假设检验的多重性调整和分层建模等方法来解决，但一个关键的实际限制仍然存在：一次变量的亚组分析很难用于临床决策，因为每个患者都属于多个亚组，每个亚组的治疗效果的大小和方向都可能不同（例如，一个患者的BMI可能小于30，而COVID-19严重）。 2 因此，传统的每次一个变量的亚组分析作为探索性或描述性分析可能是有用的，并可能产生人口水平的洞察力，但多个变量必须共同考虑，以产生临床相关的治疗效果异质性评估。

整合多个变量信息的一种方法是考察治疗效果在试验结果预测风险上的异质性（Goligher及其同事的第二种方法）。6 一个经过良好校准的风险模型被用来将多个变量整合成一个单一的 “风险分数 “变量，以捕捉没有治疗的结果风险，然后考察治疗效果在风险分数上是否有差异。在实践中，风险分数分析通常有三个步骤：首先，使用试验数据内部开发的风险分数或使用独立数据外部开发的风险分数，按预测风险水平对试验参与者进行分组；接下来，估计风险组的特定治疗效果；最后，检查治疗效果的异质性。这种方法有几个优点。临床医生凭直觉将风险纳入临床决策，验证的风险评分在临床实践中被广泛使用，而且风险与治疗效果相关。只要风险评分能够捕捉到风险的变化，它就应该能够识别不太可能从治疗中获益的病人群体，以及有可能获益的群体。此外，通过将多个变量缩减为一个单一的分数，风险分数方法避免了每次一个变量的亚组分析的多重性问题。这些吸引人的特点可能是随机试验中风险评分分析越来越受欢迎的原因，也是最近方法学建议中强调这种方法的原因。

但是，风险评分分析可能不能完全反映治疗效果的异质性，因为在没有治疗的情况下，结果的风险可能与治疗的受益或伤害没有密切的关系。例如，在住院的COVID-19患者中，BMI小于30且病情严重的患者与BMI大于等于30且病情中等的患者在不治疗的情况下，可能有相同的院内死亡风险，但这两个人的治疗获益和危害可能不同。为了更全面地把握异质性，在随机试验中，最好将异质性分析的重点放在不同治疗方法下的风险差异上，研究治疗效果的变化不是超过预测的风险，而是超过预测的治疗效果（如Goligher及其同事的第三种方法）9。在实践中，这种方法的操作方式类似于上述的风险评分分析，用 “效果评分 “取代风险评分–治疗与对照的结果的预测风险差异。

当然，风险和效果分数的估计可能具有挑战性，特别是在使用内部试验数据时。事实上，使用分数一词是为了强调这些是结果风险或治疗效果的不完美代理预测器。使用现代统计方法，包括机器学习方法，可以更好地接近基本风险或效果函数，这些方法比传统的回归方法更 “灵活”，因为它们可以更接近结果和基线变量之间的关系。然而，这些方法接近数据的能力增加了 “过拟合 “的风险–一种模型捕捉到数据的 “嘈杂 “方面而不反映真正的潜在关系的现象。过度拟合的影响可以通过样本分割的方法来控制（例如，用一部分试验数据来建立模型，用另一部分来估计治疗效果，然后可能将这两部分的作用颠倒过来）。在构建置信区间或进行统计检验时，样本分割方法也支持对不确定性的有效量化。

Goligher及其同事3在他们的效果评分分析中遵循了所有这些重要步骤，通过使用机器学习方法13获得的效果评分对研究队列进行分层，以研究治疗剂量肝素与预防性剂量肝素对院内死亡的影响。他们的方法的一个主要优点是，即使效果评分是对治疗效果的不完美估计，也能对治疗效果的异质性进行有效评估。他们发现，效果评分最低的十分位数组可能受到了治疗性肝素的伤害（住院生存的绝对风险降低为-5.7%；95%CI，-22.4%至10.6%）；在事后分析中，该组的效果与其他组有统计学上的显著差异。他们还发现，该组患者往往有较高的BMI，并且更有可能在基线时需要入住重症监护室。尽管由于所使用的结果和效果衡量标准的不同，他们的风险评分和效果评分方法之间很难进行直接比较，但不同方法之间的定性一致是令人欣慰的。他们的研究表明，用现代科学方法评估治疗效果的异质性在高质量、大规模的临床数据中是可行的。

这项仔细的研究对未来随机试验中治疗效果异质性的检查有什么意义？

首先，重要的是要认识到一个变量一个时间的亚组分析、风险评分分析和效果评分分析回答了不同的问题。前两种方法可能会提供一些重要的见解（特定的患者亚组是否有可比性的受益？我们能否根据不良结果的风险来提高公平性？），但效果评分分析有可能更全面地反映治疗效果的异质性，可能更适合于个性化的病人护理。在Goligher及其同事的分析中，风险评分和效果评分分析产生了一致的结果–但这可能不是在每个案例中都是如此。目前，进行风险评分和效果评分分析以经验性地比较其优势和局限性可能是有用的。然而，随着时间的推移，随着研究者对效果评分方法获得更多的实践经验，我们预计它们将成为探索随机试验中异质性的主要模式，包括在预先指定的分析中。

其次，异质性评估往往需要比估计平均效应所需的更大的样本量；4,14因此，信息量最大的分析将使用大型试验的数据和多个类似试验的集合协调数据。在未来的大型试验和试验的集合分析中，风险评分和效果评分分析值得考虑，作为潜在的预先指定的二级分析。当根据先前的知识强烈怀疑治疗效果的异质性时，可以对试验进行前瞻性的供电，以评估风险和效果评分的异质性。

第三，分数的内部开发应采用现代方法来控制过度拟合（即通过样本分割）和量化不确定性。11,12 这些科学水平的方法，将分数的灵活估计与现代统计推断方法相结合，需要在进行异质性分析的研究团队中整合临床和方法学的专业知识。

第四，临床医生和患者之间的共同决策需要有关绝对规模的异质性的信息。15 因此，调查治疗效果异质性的研究应该检查绝对效果指标（例如，风险差异），可能的话，同时检查相对效果指标（例如，相对风险或几率比）。

综上所述，虽然传统的一次变异的亚组分析和风险评分方法将继续在估计和报告临床相关患者亚组的治疗效果差异方面发挥作用，但随机试验应越来越多地报告效果评分分析，以检测绝对规模的治疗效果异质性，从而更好地为现实世界人群的个性化护理决策提供信息。

学术交流文章，不做为临床依据，特此声明。发布者：Chu，转转请注明出处：https://www.icu.cn/?p=7124