新型冠状病毒感染肺炎是一种新型的传染病,已经在中国特别是湖北武汉市引起了非常严重的流行传染和致死率。由于是一种新的病毒,目前主要是以新型冠状病毒核酸阳性为诊断标准。但是,发现有患者核酸检测几次都成阴性,CT以及其他症状却显示患者已经感染了新冠病毒。这样的结果,一个是给疾病的防治挖了一个很大的坑,很多患者确诊不了,只能放回家去隔离,可能造成进一步的病毒传播;另外一个是使患者耽误了治疗,病情加重。


据中国国内的医学学术期刊《中华流行病学杂志》一篇来自中国疾病预防控制中心“新型冠状病毒肺炎应急响应机制流行病学组”的论文分析7万多病例,论文得出的“粗病死率”为2.3%,其中湖北省内的“粗病死率”为2.9%,但湖北省外则为0.4%,前者为后者的7.3倍。其中一个非常重要的原因就是没有及时的进行确诊,导致感染者不能及时治疗而导致病情迅速发展恶化直至死亡。重症病例从发病到住院平均9.84天,而这近10天的等待错失了最佳时机。


随着我们对新冠病毒认识的不断深入,除了核酸检测,通过医生临床诊断也能识别出新冠病毒感染者。2月13日,湖北省卫健委官网发布的疫情情况,将临床诊断病例数纳入确诊病例数进行公布。通报显示,湖北省新增新冠肺炎病例14840例,其中含临床诊断病例13332例,也就是通过核酸检测阳性确诊的病例数只有1508例。临床诊断新冠病毒感染占比达到了89%,可以看出临床诊断在新冠病毒诊断中的重要作用。不过,当前临床诊断新冠病毒感染还是需要依靠资深的有经验的医生,对于一般的医生来说,还不能通过临床经验来进行诊断。那么,如何在短期内让一般的医生也具有新冠病毒感染临床诊断经验,将对疫情的快速防控起到重要作用。


新冠病毒诊断面临以下紧迫问题:

① 诊断准确性不高:新冠病毒诊断的核酸检测准确度不高,导致病患久久不能确诊治疗,病情迅速恶化甚至死亡;

② 诊断速度慢:新冠病毒积累的疑似病例比较多,如不能快速确诊将导致病毒的进一步传播。

③ 资深临床诊断医生少:临床诊断需要经验丰富的资深医生,而大面积的医护人员感染和高强度的工作,导致一般的医生已经不堪重负,更不用说资深的医生了。


如何解决上面提到的新冠病毒感染诊断准确性低、诊断速度慢以及资深临床诊断医生少的问题,是疫情能否发生逆转的重要决定因素。


我们可以利用人工智能机器学习算法,学习训练资深医生的临床诊断经验,训练完成具有高准确率的新冠病毒感染识别模型,辅助医生快速进行临床诊断。


由于已经具有了医生的诊断数据,并且有了诊断结果,因此可以利用机器学习中的监督学习模型进行训练。由于诊断结果是感染或者没有感染这两种情况,所以就是一个二分类模型。


利用人工智能机器学习算法训练新冠病毒感染临床诊断识别模型的流程:



总的模型序列构建流程如下:



一,数据准备

新冠病毒感染临床诊断依靠的数据包括流行病学史调查数据、病人临床表现数据以及一些实验室检查数据。

流行病学史调查数据

① 发病前14天内有武汉市及周边地区,或其他有病例报告社区的旅行史或居住史;

② 发病前14天内曾接触过来自武汉市及周边地区,或来自有病例报告社区的发热或有呼吸道症状的患者;

③ 聚集性发病;

④ 与新型冠状病毒感染者有接触史。


临床表现数据

主要表现为发热、乏力、干咳。如果个人出现发热,并同时伴有流涕、鼻塞、咽痛;部分患者可出现LDH增高;部分危重者可见肌钙蛋白增高。新冠肺炎在影像学方面的表现特征:早期呈现多发小斑片影及间质改变,以肺外带明显。进而发展为双肺多发磨玻璃影、浸润影,严重者可出现肺实变,胸腔积液少见。


根据流行病学史和临床表现,准备新冠病毒特征数据(由于无法获得病人诊断数据,所以只能根据诊断方案进行数据库构建。如掌握病人新冠诊断数据的单位,可联系作者合作进行诊断模型的研究)。


为了获得训练模型的准确性和泛化能力,不但能识别出感染的病例,而且还要能识别非感染病例,需要诊断数据保持真假例数据平衡,即诊断结果是准确感染的和诊断结果不是确诊感染的比例差不多。





二,数据处理

诊断数据中很多都是字符型的,需要将其转换为数字型。





对连续的数据,体温、发病天数进行离散化处理,如“体温”数据,处理成正常和非正常两段数据。





三,特征工程

需要选择使用哪些特征数据作为训练临床诊断模型的特征,由于诊断中已经使用了流行病学史和临床特征数据作为临床诊断的数据,因此不需要再进行特征数据的分析,直接使用这些特征作为训练模型的特征数据。


四,模型训练

将加载的特征数据按照7:3的比例拆分,70%作为训练模型数据,30%作为测试验证模型数据,选择分类模型中的逻辑回归算法、梯度提升决策树,进行诊断模型训练。


模型训练需要不停的进行超参数的调节,以便不断的优化模型。模型超参数的调节需要对算法深入掌握的算法工程师参与,对于一般的业务人员可能无所适从。可以采用自动调参设置,模型参数自动优化/推荐能够协助对算法不熟悉的业务人员也可以进行模型的训练。




五,模型测试(验证)

使用拆分的30%的数据进行模型验证,验证训练后的诊断模型对新数据的预测能力。模型测试的结果尽量实现低方差和低偏差,低方差使模型具有稳定性,而低偏差使模型具有高的准确性。




六,模型性能评估

对训练好的模型进行性能评估,查看模型性能的准确率等评估指标。


从下面的评估指标中,例如混淆矩阵中可以看出,真实为0预测为0的有10个;真实为1预测为1的有12个,真实为0预测为1的有1个,准确率accuracy为0.9565;加权F1值为0.9563。由于模型性能指标已经超过0.8(80%),因此可以作为模型进行部署。另外也选择了梯度提升决策树模型,其模型性能和逻辑回归模型差不多。




七,模型部署

将训练好的模型部署在临床诊断中,辅助医生对患者进行新冠病毒感染的临床诊断。将模型以RESTFUL服务部署,方便调用。


以json的格式输入一条诊断数据:

病患号,疫区或病患社区旅行史,病患接触史,疫区人员接触史,是否有聚集性活动,体温,乏力,干咳,发病天数,鼻塞,流涕,咽痛,腹泻,呼吸困难,血氧浓度,外周血白细胞总数,淋巴细胞计数,肝酶,LDH,肌酶,肌红蛋白,肌钙蛋白,C反应蛋白(CRP),血沉,D-二聚体,外周血淋巴细胞,肺炎影像学特征


病患125,无,有,无,无,38.5,否,是,4,否,是,是,否,否,正常,正常,正常,正常,正常,正常,正常,正常,高,正常,正常,减少,有






可以看出,在输入诊断数据后,利用已经训练好的模型进行预测,预测结果prediction的值为1,即确诊为新冠病毒感染者。


为了能够快速的训练完成新冠病毒感染诊断识别模型,需要一款具备数据接入、数据处理、模型训练、模型评估、模型部署整个过程的成熟的全能软件支撑。以上模型基于可视化数据挖掘平台Smartbi Mining进行构建,具有全流程化、可视化、模型参数自动化及模型部署一键化等特点,能够快速构建高性能的新冠病毒感染诊断识别模型,并快速的部署应用于辅助临床诊断中。


具体来说,使用Smartbi Mining构建模型具有以下优势:

① 建模全流程化:支持从数据接入、数据处理、模型构建、模型评估、模型部署整个流程过程。

② 操作全可视化:支持拖拽操作完成建模、挖掘过程可视化、挖掘结果可视化。

③ 模型参数智能自动推荐:模型超参数自动调整,能够大大减低人员的使用难度,挖掘最复杂的部分被简化。

④ 与BI无缝对接:挖掘和BI展示被集成到同一款产品中,挖掘可以使用BI丰富的可视化展示;BI也可以使用挖掘的数据处理及分析结果。


本篇文章没有去过多的讨论机器学习算法的性能及优劣,而是把重点放在了利用成熟的人工智能机器学习产品构建新冠病毒感染临床诊断识别模型,辅助医生快速进行临床诊断。在发生类似的紧急公共卫生事件时,能够为快速诊断、快速隔离、快速治疗病患赢得时间,降低病毒传播速度及病患的死亡率。


由于缺乏真实数据,只能从网上搜集数据进行测试。本篇文章中训练的模型只能当做研究,不可在实际生产中使用。如果能够得到真实的数据,则训练出来的模型可以在实际的新冠病毒肺炎临床诊断中使用。