由新加坡国家眼科中心主导的一项人工智能研究于北京时间今日零时在线发表于《新英格兰医学杂志》(NEJM;DOI: 10.1056/NEJMoa1917130)。这是NEJM第二次发表AI相关的研究论文(第一篇详见《NEJM发表首篇人工智能临床研究:精准判断脑损伤患者意识水平》)。
研究者使用训练集、验证集得到人工智能算法,并使用外部测试集检验了其筛查效果,眼底照片多达15,846张。值得注意的是,这些照片来自多种族的患者和健康参与者,因此该技术适用性较广。
我们邀请了上海交通大学医学院附属第九人民医院眼科李琳教授等解读这篇论文。
宋雪霏,李琳*
上海交通大学医学院附属第九人民医院眼科
*通讯作者
4月15日,《新英格兰医学杂志》(NEJM)在线发表《人工智能从眼底照片中检测视神经乳头水肿》。研究者使用了来自全球11个国家、19家临床机构的由不同相机采集的14341例散瞳后眼底图片,对其深度学习训练,得到了一个人工智能模型。该模型获得了较好的判别正常视乳头、视乳头水肿和其他视乳头异常的能力。在来自于另外5家临床机构的1505张图片中进行的外部验证中,该模型AUC为0.99,敏感性96.4%,特异性84.7%。在诊断试验所关注的指标中,模型阳性预测值39.8%,阴性预测值99.6%,显示了较好的疾病筛查能力。眼底照片。A. 正常亚洲人;B. 患轻度视乳头水肿的非洲裔美国人;C. 患重度视乳头水肿的非洲裔美国人。图片来源:DOI: 10.1056/NEJMoa1917130研究者首先使用了U-Net网络完成视乳头提取任务。客观来说,这个分割任务整体难度不大,U-Net完全可以胜任。然后,研究者使用DenseNet将视乳头分为3类,即正常视乳头、视乳头水肿和其他视乳头异常。在这一过程中,研究者共使用了多达14341张图片进行深度学习分类模型的训练,同时采用了五折交叉验证的方式进行验证。DenseNet是目前最优的分类网络模块之一,通过设计稠密的特征传递连接,起到了减轻梯度消失、较少参数量同时提升分类性能的效果。在网络设计和训练得当的条件下,以论文所使用的数据量,应能够取得好的分类结果。当然,若不具备如此大的可用数据量,通常可用数据增广的方式增加数据量,也可使用对抗生成网络生成新的数据;而在算法方面,在数据量不够、可以提取特征质量一般时,可以考虑使用预训练网络初始化、设计手工特征进行信息补充,或者改进特征提取方式,如使用SVM等传统算法等。本研究团队并未将工作重心放在算法的优化调整上,而是从源头上提供尽可能多、来源尽可能广的真实数据,尽最大限度克服上述技术手段带来的种种弊端,保证所生成判别模型在临床上的说服力。这一做法在通过足够的数据量保障模型内部有效性的同时,通过国际多中心、跨人种的资料采集兼顾模型的外部有效性,具有更高的科学价值。我们看到,本文所述模型的AUC、敏感性、特异性、阴性预测值虽然较高,但阳性预测值较低。以临床语言描述,即该模型判定视乳头水肿的患者中仅有三分之一左右得到临床确诊,说明其误诊率高;而此模型判断的正确率接近百分之百、排除正常眼底的能力很高,说明其漏诊率很低。通常来说,误诊率高、漏诊率低且简单易行的方法具备较好的疾病筛查价值。本研究所述模型适合非眼科医生在临床实践中做出视乳头水肿等体征的排除性诊断。而作为一个明确定位为筛查工具的深度学习分类模型,其在敏感性、特异性都超过90%的前提下呈现出的低阳性预测值,说明在临床需求的干预下,这一分类能力卓越的模型所设定的阳性阈值较小,也就是说,当模型对样本阳性的预测概率为某个较低值的时候就提交阳性筛查结果,而用于确诊的判断模型一般设置较高阈值,以实现对误诊的相对容忍和对漏诊的相对不容忍。本研究得到的人工智能系统使用眼底照片判断视乳头水肿的能力。图片来源:DOI: 10.1056/NEJMoa1917130本研究所述方法获得令人满意结果的原因有很多。除了大样本量、高图片质量、眼底图片标准化程度高、多中心多设备数据带来的较强鲁棒性(robustness)之外,不可忽视的是提出“使用人工智能算法实现通过散瞳眼底图判断视乳头是否水肿”这一科学问题本身的决定性因素。首先,视乳头水肿是一个在临床上本就主要依靠形态特点来进行判断的体征,算法对它的判别与医生在真实诊疗环境中能获取的信息维度和信息量相仿,即算法没有信息劣势。其次,视乳头水肿是一个确切的眼部体征,其检查手段不复杂,判断逻辑相对简单(本研究也仅仅在确定每张图片“标准答案”时采取了一系列更为严谨的手段来获得结论),且专业眼科医生不易误判。这就决定了算法要做的事不是“人类医生做不好的事”,而是“没有足够的人类医生来做的事”,即算法没有临床实现上的不确定性,换言之算法本身并没有肩负挖掘那些眼科医生未能挖掘的眼底图片中潜在信息的使命,任务“比较轻松”。这提示我们,在引入人工智能算法辅助医学实践的过程中,我们在选题时确保临床价值固然排在注意事项的首位,而训练时选择的资料内容与结局变量本身之间的紧密关联同样重要。在那些从临床诊断逻辑上已明确因果或具备相关性的资料间建立判别模型,而非在因果关系甚至相关性尚不确切的资料之间建模,应该是可取之道。否则,再大的样本量、再优秀的算法也不能带来令人满意的结果、推动临床诊疗的进步——至少,在投入大量人力、物力和时间的确证性研究上,这应是我们遵守的基本规则。虽然本文在大样本量的基础上获得了令人满意的研究结果,但其局限性亦非常明显,作者也并未回避。首先,本研究本质为回顾性资料的建模和符合临床研究要求的诊断试验,虽然建模、内验证、外验证完备,但未涉及前瞻性临床试验,模型的临床实践能力尚存一定的不确定性;其次,临床实践中并非所有患者都会接受散瞳眼底检查和眼底拍照,因此本文所述人工智能系统在外推性上天然存在着这样的应用限制。我们相信,在本研究的数据优势、合作机构广度优势的基础上,有关使用此人工智能模型判别视乳头水肿及其他视乳头异常体征的前瞻性临床研究的开展将较为顺畅,从而帮助该研究成果由理论向应用迈出重要的一步。此外,新方法的确立也为新设备的诞生创造了可能的思路,我们也期待着能看到更多的借力科技手段的高水平临床研究成果能尽快落地、服务于临床。![]()
人工智能从眼底照片中检测视神经乳头水肿
Artificial Intelligence to Detect Papilledema from Ocular Fundus PhotographsDOI: 10.1056/NEJMoa1917130
背景
眼科以外其他科的医师并不能很有把握地实施直接眼底镜检。目前尚未充分研究利用人工智能从眼底照片中检测视神经乳头水肿和其他视盘异常。
方法
我们对一个深度学习系统进行了训练、验证和外部测试,该系统将15,846张回顾性收集的眼底照片中的视盘分类为正常或者有视神经乳头水肿或其他异常,这些照片来自多个族群,由散瞳药散瞳后采用各种数码相机拍摄。在这些照片中,来自11个国家19个研究中心的14,341张照片被用于训练和验证系统,来自另外5个研究中心的1505张照片被用于外部测试。我们通过计算接受者操作特征曲线下面积(AUC)、灵敏度和特异性,并与神经眼科医师的临床诊断参考标准进行比较的方式评估了该系统在分类视盘方面的性能。
结果
来自6779例患者的训练和验证数据集包括14,341张照片:9156张的视盘正常,2148张有视神经乳头水肿,3037张的视盘有其他异常。各研究中心的照片被分类为正常的百分比从9.8%至100%不等;被分类为视神经乳头水肿的百分比从0至59.5%不等。在验证数据集中,该系统能够以0.99(95%置信区间[CI],0.98~0.99)的AUC区分有视神经乳头水肿的视盘与正常和有其他异常的视盘,并能够以0.99(95% CI,0.99~0.99)的AUC区分正常视盘与异常视盘。在包含1505张照片的外部测试数据集中,该系统检测视神经乳头水肿的AUC为0.96(95% CI,0.95~0.97),灵敏度为96.4%(95% CI,93.9~98.3),特异性为84.7%(95% CI,82.3~87.1)。
结论
深度学习系统可在散瞳后拍摄的眼底照片中区分出有视神经乳头水肿的视盘、正常视盘和有其他异常的视盘。(由新加坡国家医学研究委员会[Singapore National Medical Research Council]和SingHealth杜克-新加坡国立大学眼科和视觉科学学术临床项目[SingHealth Duke–NUS Ophthalmology and Visual Sciences Academic Clinical Program]资助。)
作者介绍
![]()
李琳博士,现为上海交通大学医学院附属第九人民医院眼科副主任医师,副研究员,硕士研究生导师。担任中华医学会眼科学分会小儿眼科学组委员,中国医师协会眼科学分会遗传眼病专委会委员兼秘书, 世界眼科遗传联盟中国分会委员。上海市黄浦区青联委员,欧美同学会医师协会青年委员会常委。先后获得:哈佛大学医学院2018-2019年全球临床医学研究项目中国区第1名、上海交通大学医学院附属第九人民医院优青”、与上海交通大学医学院“高峰高原-双百人计划”等人才计划支持。发表一作或通讯作者SCI论文11篇,主持国自然基金项目2项。
![]()
宋雪霏,眼科学博士,上海交通大学医学院附属第九人民医院眼科数据中心负责人。担任中国医药教育协会智能医学专业委员会智能眼科学组委员,上海市图像图形学会理事、医学影像工程专委会副主任。主研方向为基于人脸识别的眼眶病建模和以包含多模态临床数据的标准化病种库为支撑的眼眶病人工智能筛查、诊断、辅助决策、预后判断的新方法研究和相关的临床试验设计和规范化实施,以及统计学模型、人工智能模型在临床研究中的方法学探讨。发表一作或通讯SCI论文7篇,授权专利2项,负责各级别在研课题5项。
如果你
关注科研进展,熟谙临床医学
洞察内涵规律,志在传播交流
我们期待
你将NEJM的医学之美,讲与我听
submission@nejmqianyan.cn
版权信息
本文由《NEJM医学前沿》编辑部负责翻译、编写或约稿。对于源自NEJM集团旗下英文产品的翻译和编写文章,内容请以英文原版为准。中译全文以及所含图表等,由马萨诸塞州医学会NEJM集团独家授权。如需转载,请联系nejmqianyan@nejmqianyan.cn。未经授权的翻译是侵权行为,版权方保留追究法律责任的权利。
![]()
![]()