研究可解释的机器学习模型来预测慢性肾脏疾病

研究队列包括 491 名患者,其 (text {eGFR} ge 60,text {mL}/text {min}/1.73,text {m}^{2})(基线时); 250 名男性和 241 名女性,比例为 1.04 : 1。基线时的平均年龄为 (53.20 pm 13.82),他们的年龄范围在 23 至 89 岁之间(中位数 54,IQR,44 – 46) )。 在 491 名患者中,435 名(88.59%)患者为 CKD 1-2 期(非 CKD 组),56 名(11.41%)患者为 CKD 3-5 期(CKD 组)。 巢式病例对照研究中个体的基线特征见表 1。 从基线到 2017 年 6 月,每 3 个月评估一次 eGFR。在这项研究中,CKD 3-5 期是使用国家肾脏基金会肾脏疾病结果质量倡议 (KDOQI) 标准定义的,eGFR 低于 (60, text {mL}/text {min}/1.73,text {m}^{2}) 持续 (ge) 3 个月50。 使用平均值±SD 进行描述性统计分析,对连续变量进行不配对双尾 t 检验,对分类变量进行频率分布(使用卡方检验),以了解患者及其医疗状况。 表中描述了分类和数值特征的统计和定量描述 1

表 1 患者的基线特征。

从表中观察到 1 CKD 组受试者(3-5 期)有较高的糖尿病史(83.93% vs 38.62%)、CHD(30.36% vs 6.44%)、血管疾病(12.50% vs 5.06%)、吸烟(25.00% vs 14.02) %)、高血压 (91.07% vs 65.29%)、ACEIARB (76.79% vs 40.46%) 和血脂异常药物 (78.57% vs 52.18%)、糖尿病 (73.21% vs 27.59%)、高血压 (83.93% vs 58.85%)高于非 CKD 组受试者(第 1-2 阶段)。 非 CKD 组的平均年龄((52.04 pm 13.87) 岁)显着低于 CKD 组的平均年龄((62.23 pm 9.51) 岁)。 CKD 组的甘油三酯 (TG)、HbA1C、血清肌酐 (SCr) 和 SBP 水平显着高于非 CKD 组。 尽管如此,胆固醇、舒张压和体重指数仍然较低。

数据以平均值和标准差表示。 p 值是统计假设检验中使用的一种度量,用于确定在假设原假设成立的情况下获得与研究期间观察到的结果一样极端的结果的概率。 0.05 或更低的 p 值被认为具有统计显着性。 年龄、性别、胆固醇、HgbA1C、肌酐、SBP、糖尿病史、CHD、血管疾病、吸烟、高血压、血脂异常、ACEIARB以及血脂异常、糖尿病和高血压药物等协变量的p值小于0.05,这表明这些变量对 CKD 阶段有显着影响。 其他协变量 ((p>) 0.05) 没有显着影响。 我们识别统计上显着的变量,并通过基于图 1 中的相关系数矩阵的热图来表示它们的相关性。 3

图3

相关系数矩阵的热图。 蓝色表示正相关,黄色表示负相关。 颜色的强度反映了相关系数的大小,颜色越鲜艳表示相关性越强。 具体来说,趋向蓝色的阴影表示系数接近 1,而趋向黄色的阴影表示系数接近 1。

在图中。 3很明显,性别((r=0.096))、年龄((r=0.230))、糖尿病史((r=0.290))、CHD病史((r=0.260) )、血管疾病史((r=0.100))、吸烟史((r=0.097))、HTN病史((r=0.180))、DLD病史((r= 0.140))、DLD 药物 ((r=0.170))、DM 药物 ((r=0.310))、HTN 药物 ((r=0.160))、ACEIARB ((r=0.230) )、HgbA1C ((r=0.350))、肌酐 ((r=0.300)) 和 SBP ((r=0.120)) 与目标 (EventCKD35) 呈正相关,而胆固醇 (( r=-0.140)) 与目标呈负相关。 根据这些观察,我们推断没有一个功能是多余的,并选择将所有功能合并到模型开发中。

在这项涉及 491 名合格参与者的研究中,发现一小部分参与者缺失基线数据。 具体而言,3.1% 的参与者缺少基线血清 HgbA1C 数据,相当于大约 15 人。 为了解决这些缺失值并保持数据集的完整性,我们使用相应度量的中值来估算缺失值。 中位数是集中趋势的稳健度量,特别适合处理缺失值,因为它对数据中的异常值和变化不太敏感。 用 HgbA1C 的中位数估算缺失值可确保保留数据集的完整性。 这种方法允许随后的分析和解释基于参与者概况的更完整的表示。 该策略最大限度地减少了缺失数据带来的潜在偏差,并保持了研究结果的统计可靠性,从而能够从研究中得出更准确的见解。 然而,本研究中使用的数据集表现出固有的不平衡,特别是 CKD 和非 CKD 患者之间存在显着差异。 具体来说,CKD患者的记录相对较少。 为了解决这种不平衡问题,数据增强方法如 SMOTE(合成少数过采样技术)51 被雇用,生成综合患者记录。 这一步骤对于纠正不平衡并为机器学习训练建立更公平的基础至关重要。 平衡数据集对于确保机器学习模型及其后续研究应用的稳健性和公平性至关重要。 整个 CKD 数据集被分为 10 个相等(或接近相等)的部分,或“折叠”。 理想情况下,每个折叠应具有与目标类的整个数据集相同比例的观察值。 该过程由 10 次迭代组成。 在每次迭代期间,将单个折叠指定为测试集。 剩下的九个折叠被分配用作训练集。 模型在九个训练折叠上进行训练,然后在单个测试折叠上进行测试。 迭代该过程直到所有十次折叠都被用作测试集。 完成所有十次迭代后,对每次迭代的性能指标进行平均,以提供模型性能的总体评估。 表中概述了每个模型的超参数配置 2使用网格搜索方法进行优化。

表 2 ML 模型的超参数评估范围。

各个算法的训练性能如图 1 所示。 4其中 LR、RF、DT 和 NB 的准确率分别为 (87.98%)、(92.67%)、(89.00%) 和 (82.49%)。

图4

各个算法的训练性能。

相比之下,最先进的 XGBoost 算法表现出较高的准确度(93.29%),并通过网格搜索确定了最佳参数,包括最大深度 3、学习率为 0.05 和最小深度。儿童体重为 5。表中概述了 ML 模型在预测 CKD 方面的性能 3。 为了对这些模型进行综合评估,计算了敏感性、特异性和 F 分数等关键指标,结果详见同表。 值得注意的是,XGBoost 算法表现出最令人印象深刻的整体性能,AUC 得分为 0.9689。 其他模型的 AUC 分数为 LR:0.9435、RF:0.9602、DT:0.9125 和 NB:0.8955,如表所示 3

表 3 预测 CKD 的 ML 模型的性能。

这表明本研究中评估的 XGBoost 算法表现出与其他算法相当或更好的性能。 这是因为该方法旨在一次构建一系列树模型,并尝试修复之前的模型所犯的错误。 这种提升策略提高了模型的效率。 因此,它是一种建立在可扩展的端到端树增强系统设计之上的高效机器学习方法。

随着医疗数据的爆炸式增长以及对更加个性化和精确治疗的需求的增加,XGBoost 算法已成为一种非常有前途的解决方案。 该系统令人印象深刻的执行速度和卓越的模型性能使其成为机器学习替代方案中的潜在领跑者。 XGBoost 模型的特征重要性排名与 SHAP 摘要图如图 1 所示。 5对预测模型贡献最大的三个变量是肌酐、糖化血红蛋白和年龄。 该图在 x 轴上显示 SHAP 值,在 y 轴上显示特征排名。 SHAP 值较高的特征被认为对检测类型更有影响,因此被放置在顶部。 图中的特征按 SHA 分数从最高到最低的顺序排列。

图5

SHAP 算法指示的用于预测 CKD 风险的特征重要性排序。

此外,SHAP 蜂群图如图 2 所示。 6 提供有关每个变量中的参数如何影响所需结果的详细解释(全局解释和解释)。

图6

Beeswarm 摘要图使用 SHAP 值说明输入变量对 XGBoost 模型预测性能的影响。

这种视觉表示可以深入了解各种因素的单独贡献,有助于全面了解它们对模型预测的影响。 x 轴表示 SHAP 值,每条线对应一个特定特征。 值得注意的是,红点表示较高的特征值,而蓝点表示较低的特征值。 图中的每个点都表示一个观测值,其沿 x 轴的位置反映了相应特征对模型输出的影响。 我们利用 SHAP 力分析和 LIME 算法来解释 CKD 的个体化预测,并从验证集中抽取了两个例子。 患者 ID 1 的基于 SHAP 的可解释函数图如图 2 所示。 7描述每个特征的SHAP值。

图7

患者 ID 1 的基于 SHAP 的可解释函数图(真实:非 CKD,预测:非 CKD)。

每个特征“力”的长度表明其对预测的影响。 特征对模型输出的影响与箭头的大小成正比。 根据图。 7模型的预测概率值 [f(x)] 对于 CKD 患者 1-2(患者 ID:1),该值为 0.05。 某些因素,例如收缩压、患者年龄(64 岁)、性别(女性)和胆固醇,会产生积极影响,而肌酐、糖化血红蛋白和糖尿病药物则对预测结果产生负面影响。 这些贡献的直观表示可以在图 2 中观察到。 8 通过瀑布图,描绘了 XGBoost 模型生成的 CKD。

图8

患者 ID 1 的 SHAP 瀑布图(真实:非 CKD,预测:非 CKD)。

特征的积极影响用红色表示,提高了基值的预测,而负面影响则用蓝色显示,降低了预测。 瀑布图中的每一步都表示一个独特特征对模型预测的贡献。 每个步骤的长度对应于特征影响的大小,方向(向上或向下)指示该特征是否推动预测更高或更低。 如前所述,目标结果 (EventCKD35) 的标签表示二进制结果。 值 0 表示非 CKD,即 CKD 1-2 阶段,而 1 表示 CKD,特别是 CKD 3-5 阶段。 因此,该模型预测患者 ID 1 的概率为 0.05,表明 CKD 3-5 期的可能性较低。 同样,对于另一位 (f(x)=0.78) 的患者(患者 ID:68),HgbA1C、性别(女性)、胆固醇、年龄(61 岁)、肌酐和 ACEIARB 等因素也发挥着影响作用。如图 1 所示,在预测 CKD 的高可能性方面发挥着重要作用。 9

图9

患者 ID 68 的基于 SHAP 的可解释函数图(真实:CKD,预测:CKD)。

瀑布图如图所示 10 根据 SHAP 值描述 CKD 的预测,特征按相关性从影响最大(顶部)到影响最小(底部)排列。 分析患者 ID 68 的 SHAP 值表明,大多数特征对 CKD 的最终预测概率有积极贡献,其中 HgbA1C 影响最大。

图10

患者 ID 68 的 SHAP 瀑布图(真实:CKD,预测:CKD)。

结合各种单独解释的 SHAP 值,可以提供对整个数据集中特征的贡献的全面视角。

图 2 中的 SHAP 依赖图进一步深入了解了对 XGBoost 模型有贡献的前三个临床特征。 11

图11

影响 XGBoost 模型的前三个临床特征的 SHAP 依赖图 (a) 肌酐; (b) 糖化血红蛋白; (c) 年龄。

该图直观地说明了单个特征值与其对应的 SHAP 之间的关系,表示特征值对模型预测的影响。 x 轴表示特定特征的值,例如肌酐、HgbA1C 和年龄,而 y 轴显示与这些特征值关联的相应 SHAP 值。 例如,在检查肌酐时,x 轴代表肌酐值的范围,绘图上的每个点对应于数据集中的一个数据点。 y 轴代表 SHAP 值,可以深入了解较高或较低的肌酐值如何影响模型的预测。 较高肌酐值的持续正 SHAP 值表明对模型的预测有积极贡献,而持续负值则意味着负面影响。 同样,对于 HgbA1C,x 轴显示 HgbA1C 值的范围,y 轴显示相应的 SHAP 值。 较高 HgbA1C 值的正 SHAP 值表示对模型输出的正贡献,而负值表示负贡献。 对于年龄,x 轴表示年龄值的范围,y 轴显示关联的 SHAP 值。 较高年龄值的正 SHAP 值表示对模型输出的积极影响,而负值表示负面影响。 这些 SHAP 依赖图有助于理解个体临床特征与模型预测之间的关系。 通过分析这些图,我们可以确定这些关系是线性的、非线性的,还是涉及与其他特征的复杂相互作用。 此外,还可以深入了解整个图中的模式、数据点集中度和信息分布。 总体而言,检查这些图的肌酐、HgbA1C 和年龄可以为了解这些临床特征的变化如何影响 XGBoost 模型的预测提供宝贵的见解,从而有助于解释并可能为临床背景下的决策提供信息。 正 SHAP 值表示正贡献,而负值表示负贡献,从而可以细致地了解特征对模型输出的影响。 此外,还采用 LIME 技术来分析和解释特定实例的预测。 该分析是通过检查单个患者来说明的,如图 1 和 2 所示。 1213。 该图说明了影响个体分类为 CKD(橙色)或非 CKD(蓝色)的特征。 图中详细介绍了这些特征的具体值,代表了它们各自的贡献。

图12

使用 XGBoost 模型对患者 ID 1 的 LIME 模型评分进行可视化。

图13

使用 XGBoost 模型对患者 ID 68 的 LIME 模型评分进行可视化。

该图的左侧部分显示每个患者的预测结果。 在图的中间部分,按重要性降序突出显示了决定 CKD 和非 CKD 事件的前 10 个影响变量; 每个条形的长度表示该变量在预测过程中的权重或重要性。 橙色属性支持CKD,蓝色属性支持非CKD。 水平条上显示的浮点数表示这些功能的相对重要性。 较长的条形表示对结果影响更明显的变量。 该图的最右侧部分显示了这十个变量对结果影响最大时的临界值。 患者 ID 1 的预测结果,如图 1 所示。 12自信地表明该特定患者处于 CKD 1-2 期,预测置信度为 95%。 同样,如图。 13 显示了对患者 ID 68 的预测,将此人归类为非 CKD,特别是属于 CKD 3-5 期,预测置信度为 86%。 此外,这些图通过强调输入特征对预测结果的贡献,详细阐述了这些预测背后的推理。

使用 SHAP 和 LIME 方法,我们评估了数据库中每个患者模型的预测概率,其中包括 491 例病例。 这些评估提供了有关模型如何识别每位患者以及他们表现出特定结果或属性的机会的深入知识。 补充表 S1 提供了更深入的分析和结果背景。 预测概率与因肾脏疾病而出现并发症的可能性较高的患者相关,对于风险较高的患者,预测概率较高。 相反,较低的风险评分表明遇到此类并发症的可能性较低。 事实证明,这一预测概率结果对医疗保健从业者有益,因为它有助于辨别 CKD 1-2 或 3-5 期的患者。 通过了解这些概率,专业人员可以根据患者的具体风险状况,确定需要更密集监测、量身定制干预措施或专门护理的患者。

2024-02-14 07:31:34
1707897560
#研究可解释的机器学习模型来预测慢性肾脏疾病

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​