糖尿病领域有一桩知名“公案”:血糖曾是糖尿病药物公认的疗效指标,但后来发现血糖降低不一定是好事——过度降低血糖患者可能更容易死亡。我们从中获得教训,有些用来评价药物疗效的检测指标,未必意味着患者实际获益。毕竟我们治疗糖尿病的最终目的不是降低血糖,而是帮助患者避免糖尿病引起的诸多并发病症,改善生活质量,延长生命。
类似血糖和糖尿病这样的关系,还有血液透析治疗患者的血磷。血磷升高超过正常范围(医学上称为“高磷血症”)是慢性肾脏病晚期患者的常见情况。许多流行病学研究已经证实,血磷升高是患者心血管疾病的重要危险因素,可以预测他们的死亡风险,因此医生会想方设法降低患者血磷。
然而尚无确切证据表明,降低血磷一定能够降低心血管疾病或死亡风险。积极控制血磷,会不会是无用功?会不会像血糖一样,物极必反造成更大伤害?临床试验 HiLo 应运而生,试图在真实临床环境下比较两组患者,接受不同治疗方案的结局 (Edmonston et al. 2021)。各组治疗方案根据一高(high)一低(low)的血磷控制目标制定,试验故名“HiLo”。
通常临床试验会事先定义一个“终点”(endpoint),作为衡量最终结果的标准。它可以是实验室检测指标(比如血糖),也可以是指定临床事件(比如心肌梗死)。对于血液透析患者,HiLo 试验设计者最关心的结局是两类临床事件:死亡和住院。前者重要性不言而喻,后者则反映了医疗系统负担和患者生活质量。于是 HiLo 试验将它们捆绑在一起作为临床试验终点。这种包涵多个独立终点的终点,有个专门术语叫“复合终点”(composite endpoint)。
然而这个复合终点里的死亡和住院,对患者影响天差地别,将两者等而视之难免偏差。糖尿病领域的基石临床试验 UKPDS,设置的复合终点覆盖了从死亡到白内障摘除手术的广泛临床事件。虽然 结果 表明积极控制血糖可以降低复合终点发生率,但细究终点各组分,患者死亡风险不变,只是其它非致命终点发生得少了。如果笼统说复合终点发生率降低,或许造成死亡发生率也一并减少的误会。
HiLo 试验设计者综合考量后,选择了一种非典型复合终点。这种终点名为“分级复合终点”(hierarchical composite endpoint),依赖统计学方法兼顾死亡和住院,又能按照它们对患者的影响大小,在分析试验结果时分出高低优先级。具体分析方法如下:
- 将第一组的第一名受试者和第二组的第一名受试者配对,比较双方接受试验观察的时间长度。如果双方接受试验观察的时间不等,按较短者为准。
- 确定时间段后,首先比较该时间段内优先级较高的终点“死亡”。如果一方受试者死亡,另一方存活,后者胜出,判定得分。
- 如果观察时间段内双方均未死亡,继续比较优先级次高的终点“住院”。如果一方受试者住院次数多于另一方,后者胜出,判定得分。
- 如果观察时间段内双方均未死亡,且住院次数相等,判定平局,双方不得分。
- 第一组的第一名受试者与第二组的其他受试者依次配对、比较、计分。与第二组所有受试者完成配对后,第一组的第二名受试者开始与第二组受试者依次配对、比较、计分(见下图)。
- 重复上述步骤,直到第一组最后一名受试者与第二组所有受试者完成配对、比较、计分,计算两组受试者总分,使用统计学方法推断两组治疗差异。
我第一次遇见分级复合终点。查阅资料,辉瑞曾在药物 tafamidis 治疗转甲状腺素蛋白淀粉样变性心肌病(transthyretin amyloid cardiomyopathy, ATTR-CM)的 3 期临床试验中采用类似终点 (Maurer et al. 2018)。tafamidis 最终被批准上市,想必此类复合终点在统计学上是严谨、可靠的。
HiLo 试验设计者认为分级复合终点表示的试验结果不够直观。死亡作为终点比较两组受试者死亡率孰高孰低,住院作为终点比较两组受试者住院次数孰多孰少,两者作为普通复合终点比较两组受试者死亡、住院任一事件发生孰早孰晚——结果好坏一目了然。但分层复合终点比较两组受试者两两配对的胜率、得分,如果最终结果只是一组得分高过另一组,理解起来肯定没那么直截了当。除此以外,分级复合终点特定场合下会影响结果可靠性 (Finkelstein and Schoenfeld 1999)。FDA 统计部门审阅 tafamidis 上市申请时,也提到如果受试者过早退出试验,之后才多次发生终点事件,可能误导我们对药物疗效的判断。
我非统计学出身,讨论统计学方法实属班门弄斧。然而,统计学已是循证医学不可或缺的学科、工具,临床科研人员、工作者必须知晓其基本概念、方法,才能准确理解各种试验、分析的结果,解读其对临床工作的意义。当重要临床试验采用陌生的统计学方法,我们也只能明知山有虎,偏向虎山行了。最后,如果统计专业的朋友发现本文讹误,还请不吝指出!
参考文献
- Edmonston, Daniel L., Tamara Isakova, Laura M. Dember, Steven Brunelli, Amy Young, Rebecca Brosch, Srinivasan Beddhu, Hrishikesh Chakraborty, and Myles Wolf. 2021. “Design and Rationale of HiLo: A Pragmatic, Randomized Trial of Phosphate Management for Patients Receiving Maintenance Hemodialysis.” American Journal of Kidney Diseases 77 (6): 920–930.e1.
- Finkelstein, Dianne M., and David A. Schoenfeld. 1999. “Combining Mortality and Longitudinal Measures in Clinical Trials.” Statistics in Medicine 18 (11): 1341–54.
- Maurer, Mathew S., Jeffrey H. Schwartz, Balarama Gundapaneni, Perry M. Elliott, Giampaolo Merlini, Marcia Waddington-Cruz, Arnt V. Kristen, et al. 2018. “Tafamidis Treatment for Patients with Transthyretin Amyloid Cardiomyopathy.” New England Journal of Medicine 379 (11): 1007–16.