介绍

急性呼吸窘迫综合征 (ARDS) 的定义有一段颇具争议的历史，有些人甚至质疑 ARDS 一词的必要性。鉴于 ARDS 的发病率显著增加，相对较新的治疗方式不完全符合柏林的定义，以及在资源有限的环境中难以做出诊断，COVID-19 大流行加剧了这一争议。

我们建议修改 ARDS 定义的尝试应该应用最初由心理学家和社会科学家开发并被其他医学学科使用的框架来生成和评估没有黄金标准的临床综合征的定义。这个框架是围绕可靠性、可行性和有效性的度量而构建的。未来对 ARDS 定义的修订应包含：目的、方法和对任何提议定义进行实证检验的框架。试图修改危重疾病综合征的定义通常希望使它们“更好”；我们的建议是，未来的尝试使用与其他领域相同的标准来定义“更好”的含义。

Ashbaugh 及其同事在 1967 年发表的一篇开创性文章中介绍了急性呼吸窘迫综合征 (ARDS) 一词，该文章描述了 12 名急性低氧性呼吸衰竭 (AHRF) 患者，以及一系列体征、症状和实验室异常，这些患者将他们与 272 名其他通气患者区分开来。7例患者病理检查显示肺不张、血管充血和出血、严重肺水肿和透明膜。不久之后，佩蒂和同事称这个综合征为“ARDS”。多年来，对 ARDS 的定义进行了许多改进。

本文的目的是提议改变重症监护界对 ARDS 等综合征的历史定义：从基于“专家共识”到“科学分类系统”，使用从其他领域采用的方法为缺乏黄金标准的结构制定综合征定义。尽管这些方法已经在 ARDS 的最新定义中部分引入，但迫切要求对其进行修订，需要采用严格和透明的方法，并为整个临床和科学重症监护医学界广泛共享。

历史的角度

在其描述的十年内，关于“ARDS”一词的争论随之而来。一方面，lumpers 认为 ARDS 一词是有用的，并且代表了一个独特的临床实体。另一方面，反对者认为该诊断没有任何意义，并提出了与潜在肺损伤机制相关的多个个体诊断。到1988年，反对者提出了一个包含ARDS风险因素的定义，以及一个 “肺损伤评分”，对胸部X射线（CXR）、动脉血氧分压与吸氧量之比（P/F）、呼气末正压（PEEP）和顺应性进行评分。

1994年，美国-欧洲共识会议（AECC）对该定义进行了标准化。他们的论文对该定义的发展或论证关注较少，但对急性肺损伤的科学进行了回顾。2004年，为了解决CXR的可靠性差，以及与尸检结果相比定义的有效性差的问题，Ferguson和他的同事们使用了德尔菲程序来正式征求对定义的同意。

2012年，一个共识会议修订了ARDS的定义。柏林定义 “对AECC的定义提出了相对较小的改动。会议提出了两种严重ARDS的定义：一种类似于Ferguson和同事提出的定义，另一种只基于P/F。利用大型数据库的数据，两种定义都产生了具有类似死亡率和其他肺损伤标志物的群体，但后者包括更多的病人。使用预先指定的规则，保留了较简单的严重ARDS定义。

尽管进行了所有这些工作，但 ARDS 的定义在资源丰富和资源贫乏的环境中都有许多限制，其中许多限制被 COVID-19 放大了。其中包括高流量鼻氧 (HFNO) 患者不能（根据定义）满足 ARDS 标准、随着肺部超声使用的蓬勃发展而减少 CXR 的使用、随着动脉氧饱和度使用的增加而减少动脉血气的使用，以及标准化呼吸机设置的作用。

Matthay和同事们提出了ARDS的扩展定义，包括HFNO、肺部超声和S/F；一个国际共识会议小组不久将对扩展ARDS定义提出正式建议。相反，还有人提议放弃 “ARDS “一词，而采用与风险因素相关的疾病。例如，在最初的辩论中，Murray指出，虽然 “脂肪栓塞、烟雾吸入和急性胰腺炎患者的肺部表现相似，但ARDS家族中这三个成员的肺部损伤的基本机制似乎不同”，并可能减损 “发病机制、治疗和预后方面的重要和独特的差异”。

为什么需要 ARDS 的正式定义以及我们应该如何创建它？

ARDS 的正式定义是有帮助的，因为它允许将相似的患者纳入研究并提供治疗/预后信息。实现这些目标的一个主要挑战是缺乏金标准；甚至弥漫性肺泡损伤 (DAD) 也并非始终被接受为金标准。然而，正如心理学家和社会科学家所证明的那样，使用严格的方法来验证缺乏金标准的综合征的诊断标准并非不可克服。

应对这一挑战的关键是理解临床综合征与社会科学家所称的 “结构 “之间的相似性。根据宾宁的说法，建构体 “来自一般的科学过程：观察自然现象，推断共同特征，并为观察到的共同点或共同点的根本原因构建一个标签”。宾宁认为，关键是构架的科学价值来自于构架对不同人的共同意义。

一个明确定义的结构是不同的人想法相似的结构，因此有助于促进共同理解。根据 Streiner、Norman 和 Cairney 的说法，“许多医生所说的‘综合征’会被心理学家称为‘假设结构’”。ARDS 符合这一模式，因为它更接近于一种构造而不是一种实际的疾病，因为其因果机制是异质的并且了解甚少，并且没有金标准诊断测试。来自各个领域的临床医生每天都在诊断、治疗和研究结构：心力衰竭、虚弱、肠易激综合征、痴呆和慢性疲劳就是一些例子。

1987 年，医生/流行病学家 Feinstein 出版了《临床计量学》，这本书讲述了如何将用于测量“结构”的严格方法纳入临床现象的测量/定义中。存在大量文献用于开发测量工具这些复杂的结构，如智力、种族主义或生活质量。关键的见解是，应制定和评估综合征的诊断标准，作为衡量结构的工具；这可能不直观，但并不新颖。精神病学家采用了这一点制定严格定义的方法，“从伟大的教授原则，到专家的共识，再到科学的分类系统”。

我们建议，为了重新定义ARDS，重症监护界应该使用现有的框架来衡量构件，该框架是围绕着可靠性、可行性和有效性的衡量标准而构建的。

可靠性

我们有意将可靠性放在首位。由于定义的主要目标是促进研究，因此综合征诊断标准应识别不同中心的相同患者。可靠性量化了观察者之间对诊断的一致性，或使用观察者内和观察者间可靠性的测量对诊断标准之一的测量。

对大多数ARDS诊断标准的可靠性缺乏经验性研究。例如，P/F比率取决于呼吸机设置。因此，除非PEEP和容量历史是标准化的，否则类似的病人不一定会被诊断为相同的方式。更令人不安的是，同一个ARDS患者在增加PEEP后可能不会有ARDS，如果增加导致P/F>300mmHg。另一个例子。CXR标准是不可靠的，试图使其标准化的努力并不成功。肺部超声可能更可靠；然而，鉴于超声的交互性，在多个超声技师之间测量可靠性可能比胸部X光检查的类似研究更困难。鉴于诊断ARDS的影像学标准的可靠性较差，我们没有理由相信类似的患者，尤其是那些病情较轻的患者，会以同样的方式被CXR和肺部超声识别，或者在不同的中心有类似的识别。

未来改善ARDS定义的可靠性的尝试应该集中在对拟议标准的经验研究上。提高可靠性的标准方法包括协议、培训材料和结合多种测量方法。值得注意的是，在定义的组成部分上的不一致可能不会对整个定义产生致命的影响。如果该领域，如胸部成像或排除心力衰竭，对有效性没有影响，特别是对治疗的反应，就会出现这种情况。在可靠性差的情况下，定义小组应考虑放弃定义的这一部分。

可行性

可行性是“在临床和研究环境中获得诊断标准的现实世界的实用性”。理想情况下，可行性问题通过试点研究来回答，这些研究涉及可用性、复杂性、时间、成本、同意以及不同环境中假阳性和假阴性的后果。

让我们举几个例子。首先，S/F 显然是比 P/F 更可行的低氧血症测量方法，因为脉搏血氧仪更安全、痛苦更少且更容易获得（柳叶刀：脉搏血氧饱和度用于诊断和管理ARDS）。可以对肺部超声而不是胸片进行类似的论证。这些例子在资源贫乏地区尤为重要。其次，如果不是常规治疗的一部分，用于诊断 ARDS 的标准化呼吸机设置或特殊成像可能需要征得同意，这可能对研究构成重大障碍。第三，诊断 ARDS 的生物标志物也提出了可行性问题。如果新定义需要生物标志物测量，重要的是生物标志物是常规可用且价格低廉的。

有效性

评估提议的 ARDS 定义最具挑战性的方面是评估其有效性。1927 年，Kelley 说：“如果一个测试测量了它所说的测量值，那么它就是有效的”。问题仍然是，如果没有金标准，我们如何知道该定义是否确定了“真正”患有 ARDS 的患者？在这里，也有大量来自社会科学的经验、理论和统计工作可供依赖。不幸的是，有效性测试的术语是复杂的、不断发展的，并且经常使用不一致。

Feinstein指出，”有效性可能是在临床和社会心理指标的衡量标准中遇到的最困难的词。当行话中增加了一系列前缀来区分各种类型的有效性，如表面有效性、内容有效性、标准有效性和结构有效性时，仅仅区分和记住所有不同的内涵就需要付出巨大的努力。更为复杂的是，像 “敏感性”、”准确性”、”适宜性 “和 “一致性 “等术语被用作某些类型验证的同义词。

最近的建议倾向于避免有效性分类方案；相反，他们专注于形成验证假设并对其进行测试。出于我们的目的，我们将有效性分为表面有效性、预测有效性和其他验证测试。对各种有效性方案感兴趣的读者可以参考心理测试的文本。

表面有效性

表面有效性描述了所提出的定义是否抓住了该综合征的所有特征。这可以通过调查或正式的专家共识技术（如Delphi，名义小组）进行经验评估。更常见的是，它是基于撰写论文的小组的非正式最佳意见。虽然这看起来并不严格，但这是很重要的，因为只有临床专家才能合理地判断该定义是否完全抓住了该结构。

识别关于表面的分歧很重要，因为这些分歧很难凭经验解决。例如，一些人认为低氧血症快速缓解的患者没有 ARDS。从本质上讲，这解决了表面有效性，因为它直接来自 Ashbaugh 的原始描述，他指出 ARDS 患者“对常规和普通的呼吸治疗方法没有反应”。正如人们所期望的那样，病情好转的人表现更好，低氧血症快速缓解的患者的死亡率明显低于未缓解的患者。因此，这些病人是否患有ARDS不能以其较低的死亡率为依据，因为较低的死亡率是基于将 “快速解决 “纳入定义的预期。这里的基本问题是，这些患者是否符合我们的ARDS构造，以及在ARDS定义中加入无反应者成分所带来的诊断延迟是否会阻碍临床研究。

在定义小组发现自己无法指定任何验证假设的情况下，表面有效性具有独特的重要性。在这里，小组正在表达自己的“什么是 ARDS”的格式塔。在这种情况下，专家组的组成及其审议方法就显得尤为重要。因此，理想情况下，专家组应代表广泛的临床医生、研究人员和患者的不同意见。

预测有效性

预测有效性自从在柏林定义中用于解决ARDS的严重性亚类后，就受到了很大的关注。区分预测性验证和预测是至关重要的。柏林共识会议上的预测有效性分析在两种拟议的严重ARDS定义中进行了选择。作为死亡率的预测工具，有3个P/F分层的柏林定义表现很差。一个结合了年龄、危险因素和其他器官衰竭的ARDS定义对死亡率的预测将明显优于柏林定义。所以预测的准确性不是预测有效性的目标。

此外，仅仅因为 P/F 比率是使用预测有效性框架选择的，并不一定意味着它是一个“更好”的定义；它只是意味着它是使用预先指定的标准来定义“更好”的。如果目标是表面有效性，或者如果目标是鼓励医生在临床管理中更多地考虑生理学，则对严重 ARDS 的替代柏林定义（包括依从性和死腔标记）可能是更好的选择。

一些研究纳入了预测有效性假设，但没有承认这些假设，例如观察到AHRF患者，无论他们是否符合ARDS标准，都有类似的死亡率。在这些研究中，区分AHRF和ARDS的唯一标准是兼容的CXR。在这里提出的框架中，我们会说这些数据证明CXR对死亡率缺乏预测效力。当然，仅这一观察并不意味着应将CXR从定义中删除。它可能是表面有效性的一个重要部分，因为ARDS被认为是一个弥漫性的炎症过程，用于得出这一结论的所有临床数据都来自于使用包含CXR标准的定义的ARDS患者。

其他验证测试

验证性研究应该从一个简单的假设开始：患有该综合征的病人应该有[X]，没有该综合征的病人不应该有[X]。例如，与没有这种诊断的病人相比，患有抑郁症的人应该 “错过更多的工作”、”有更多的自杀”、”有更多的离婚”。要解决其他ARDS验证问题，应该从一个简单的假设开始：例如，有ARDS的病人应该有DAD，没有ARDS的病人不应该有DAD。如果不能提出这样的假设，那么就不能对定义进行经验验证，而试图完善定义的工作就只能停留在表面有效性、可靠性和可行性上。

我们认为，为重新定义症候群而召开的专家小组的核心目的之一是就验证性假设达成共识。虽然验证的术语对一些危重病研究者来说可能是新的，但研究问题却不是。就不同形式的[X]，如死亡率、住院时间、生物标志物、肺水、顺应性等，将ARDS患者与非ARDS患者进行比较的研究都是验证性假设的测试。然而，文献是有限的，因为不同形式的ARDS定义通常不被测试，而且假设更多的是围绕探索ARDS的机制而不是验证定义。事实上，可能没有充分的验证变量，甚至是病理学，我们可以同意所有的ARDS患者都有共同点。因此，也许基于共识的定义所能做的就是提高可靠性和表面有效性。

当然，还有其他必须解决的验证性研究的细节。例如，可能会增加验证论点，即ARDS严重程度与[X]之间存在着剂量反应关系。适当地选择对照组（非ARDS患者）是关键。对照组可以是正常受试者，这将测试最极端的比较，这种研究可能对试验新的成像或生物标志物措施有价值。其他研究可以测试处于定义边缘的患者，例如，比较CXR符合ARDS定义的患者、不符合定义的患者以及处于两者之间的患者。最重要的验证假设是符合ARDS定义的患者是否对旨在治疗ARDS的疗法有反应。不幸的是，这并不是完善定义的实用工具，因为大多数随机试验都失败了；目前还不清楚它们的失败是由于定义不好。还是治疗方法根本无效。

答案是什么？

尽管柏林定义采用了这里提出的框架的一些特征，但也有几个领域没有。一些例子是它没有明确说明选择专家的过程，它没有包括一个多元化的小组，它没有说明可行性、可靠性和有效性组成部分之间权衡的存在和理由；它没有使用一种方法来达成共识，也没有为未来的研究指明具体的验证假设。我们认为在 ARDS 定义的任何修订过程中都应考虑以下步骤：

首先，每一次重新定义ARDS的尝试都应该从两个问题开始。”目前的定义有什么问题？”和 “我们如何知道新的定义是更好的？” 我们认为，改进定义的过程必须从理解 “更好 “的含义开始，必须包括量化 “更好 “的方法。因此，我们需要明确解决将ARDS描述为一种结构所需的语言，并处理异质性的因果机制和缺乏金标准诊断工具的后果分享一种关于综合征定义是什么的语言将使我们能够就如何使其更好进行交流。

第二，需要一个正式的方法来制定拟议的定义，明确阐明其理由、框架和评估方法（表）。需要由专业协会协调的多学科小组，以防止定义的竞争。例如，需要达成共识以解决表面有效性的问题，即拟议的定义变化是否仍能反映ARDS的临床结构。验证过程应该从假设开始：ARDS患者应该有[X]，无ARDS患者不应该有[X]，小组应该定义在验证研究中具有说服力的变量。如果不能提出这样的假设，那么就不能进行经验性验证，完善定义的尝试最好留待可靠性、可行性和共识性的面世。

小组应该解决当改善定义的一个领域（例如可靠性）的努力与另一个领域（例如可行性）的要求直接冲突时可能出现的明确的权衡。需要注意的是：（a）有效性是一个持续的评估、再评估、完善、同行评议和发展的过程；（b）虽然开发、完善和验证多维分数和工具的统计方法可能相当复杂，但围绕综合征验证的假设通常并不复杂。临床综合征定义的验证从根本上说是一个临床问题，而不是一个统计问题。

第三，小组成员的共识方法和选择标准应明确声明并广泛使用。小组应 (a) 在多个领域中多样化；(b) 定义为“专家”临床科学家和临床医生；(c) 让所有参与 ARDS 患者护理的医疗保健专业人员参与；(c) 包括患者和家属代表。

第四，任何新的ARDS定义都应该认识到，根据临床和/或生理特征，如对PEEP的反应性和生物学特征，有不同种类的ARDS。可以采用分层的方法，从AHRF表型开始，基于可行和可靠的可观察特征的简单聚类，然后从这个表型中划分出不同的内型。使用生化和生理参数的复杂的聚类算法可用于识别AHRF的内型。这些数据挖掘技术依赖于这样一个假设，即在统计学上相互接近的病人标记物集群会有类似的行为，而在临床上可能并不明显。这些通过数学推导出来的群组中，哪一个会被称为 “ARDS”，将由研究者决定，不能通过经验推导，或者，也许 “ARDS “会被放弃，而选择一个通过数学推导的内型。

总之，为缺乏金标准诊断测试的医疗条件制定综合症定义的挑战在医学上很常见，但制定和测试这些定义的方法在重症监护中却很少使用。未来修订危重症综合征定义的尝试应包含当前定义的局限性、修订的目的、推导的方法以及经验性测试可靠性、可行性和有效性的框架。我们认为，现在是时候放弃为所有目的制定单一定义的概念了。在可以获得同意的情况下，制定不同的定义用于随机试验或用于资源较少的环境可能是有用的。然而，我们必须了解不同版本的定义所确定的病人的任何差异。

来源：

Ranieri. Rethinking ARDS After COVID-19. If a “Better” Definition is the Answer, What is the Question? Am J Respir Crit Care Med 2022;epublished September 23rd

本文荟萃自，只做学术交流学习使用，不做为临床指导，本文观点不代表数字重症立场。

ARDS