医学影像人工智能领域研究质量究竟如何？-环球医学

关于环球医学

010-84476011

环球医学>> 临床用药>> 其他科室>>正文内容

其他科室

医学影像人工智能领域研究质量究竟如何？

来源：环球医学编写时间：2020年05月18日点击数: 5星

在医学影像人工智能领域的研究是当前热点，而研究和报告质量到底如何？2020年3月，发表在《BMJ》的一项研究，检索相关研究数据，并系统评价了研究的设计、报告标准、偏倚风险和声明。

目的：系统考察将医学影像学诊断深度学习算法（deep learning algorithms）性能与专业临床医师相比较的研究的设计、报告标准、偏倚风险和声明。

设计：系统评价。

数据来源：Medline、Embase、Cochrane Central Register of Controlled Trials数据库和世界卫生组织（World Health Organization）试验注册中心2010年～2019年6月收录的数据。

研究筛选标准：将医学影像学中深度学习算法的性能与一位或多位专业临床医师组成的同期组进行比较的随机试验注册和非随机研究。医学影像学对深度学习研究的兴趣与日俱增。在深度学习中，卷积神经网络（CNNs）的主要特点是，当神经网络输入原始数据时，它们会发展出模式识别所需的表示。该算法自己学习对分类很重要的图像特征，而不是被人类告知要使用哪些特征。选定的研究旨在利用医学影像学预测现有疾病的绝对风险或将其分为不同的诊断组（如，疾病或非疾病）。例如，用诸如气胸或非气胸的标签标记的原始胸片，以及CNN学习哪些像素模式是气胸。

评价方法：使用CONSORT（报告试验的综合标准），评价随机研究报告标准的依从性，使用TRIPOD（个人预后或诊断的多变量预测模型的透明报告），评价非随机研究报告标准的依从性。使用Cochrane偏倚风险工具，评价随机研究的偏倚风险，使用PROBAST（预测模型偏倚风险评价工具），评价非随机研究的偏倚风险。

结果：在深度学习随机临床试验中，仅发现10项记录，其中2项已公布（除了缺乏设盲外，偏倚风险较低，对报告标准的依从较高），8项正在进行中。在81项选定的非随机临床试验中，仅有9项是前瞻性的，仅有6项是在真实的临床环境中开展的。对照组的专家中位数量仅为4（四分位范围2～9）。对所有数据集和代码的完全访问受到严重限制（在95%和93%的研究中分别不可用）。在81项研究中，58项研究的总偏倚风险较高，对报告标准的依从性不佳（29项TRIPOD条目中有12项的依从性＜50%）。81项研究中有61项在摘要中指出，人工智能的表现至少与临床医生相当（或优于临床医生）。81项研究中仅有31项（38%）研究指出，需要开展进一步的前瞻性研究或试验。

结论：在医学影像学研究中很少有关于深入学习的前瞻性研究和随机试验。大部分非随机试验都是非前瞻性的，偏倚风险较高，并且偏离了现有的报告标准。大多数研究缺乏数据和代码的可获得性，而临床医生对比组通常规模很小。未来的研究应减少偏倚风险，增强真实世界中的临床相关性，改善报告规范性和透明度，并适当调整结论。

（选题审校：徐晓涵编辑：吴星）
（本文由北京大学第三医院药剂科翟所迪教授及其团队选题并审校，环球医学资讯编辑完成。）

（专家点评：研究质量和报告质量关系着人们对这一科学领域的认知，如果AI的表现被“夸大”，会使研究容易被媒体和公众曲解，结果可能不符合患者的最佳利益，也无法最大限度地保障患者的安全，而最好的办法是确保我们有高质量和透明报告的证据基础。）

参考资料：
BMJ. 2020 Mar 25;368:m689
Artificial Intelligence Versus Clinicians: Systematic Review of Design, Reporting Standards, and Claims of Deep Learning Studies
https://pubmed.ncbi.nlm.nih.gov/32213531