让AI处罚获得更好的诊断
等待体检结果的人都知道焦虑的问题:“当我知道我的生活完全改变?”And the relief if you test negative.
今天,人工智能(AI)越来越多地部署到预测威胁生命的疾病。但在得到还有一个巨大的挑战机器学习精确enough-specifically (ML)算法,在算法正确诊断,如果有人生病了。
机器学习(ML)是人工智能的分支算法从数据集,并在这一过程中得到更聪明。“假设有一个数据集对一个严重疾病。数据集有90人没有疾病。但是10人有疾病,”博士说Ibomoiye Domor Mienye。Mienye是约翰内斯堡大学的博士后研究员AI (UJ)。
“作为一个例子,一个90 ML算法说,没有疾病。到目前为止,是正确的。但它不能10有疾病的诊断。该算法仍被认为是90%准确的,”他说。
这是因为一直以这种方式定义的准确性。但对于健康结果,它可能是紧急诊断疾病的10人,让他们接受治疗。这可能是更重要的比完成精度约90人没有条件,他补充道。
惩罚与人工智能
研究发表在医学信息学解锁教授,Mienye Yanxia太阳展示ML算法可以明显改善用于医疗目的。他们使用逻辑回归、决策树、XGBoost和随机森林算法。
这些是监督二进制分类算法。这意味着他们只学习“是/否”数据集提供给他们。
太阳Mienye博士和教授都是电气系的UJ和工程科学。研究人员建立成本敏感性为每个算法。这意味着算法得到一个更大的讲述一个点球有病的人在数据集,他们是健康的,而不是相反。在医学术语,算法得到更大的惩罚比假阳性假阴性。
太阳Mienye博士和教授学习公共数据集用于糖尿病,乳腺癌,子宫颈癌(858条记录)慢性肾脏疾病(400条记录)。
数据集来自大型医院或医疗保健项目。在这些二进制数据集,人分为有疾病,或没有。
他们使用的是二进制的算法。这些可以说“是的人有疾病”或“没有没有。”They tested all the algorithms on each dataset, both without and with the cost-sensitivity.
显著提高精度和召回
结果清楚的表明,惩罚在这些数据集按预期工作。慢性肾脏疾病例如,随机森林算法精度在0.972和回忆在0.946,1.000的完美。成本敏感性被添加后,算法显著提高精度在0.990和1.000回忆在一个完美的。
CKD,其他三个算法召回改进从高分到一个完美的1.000。精度为1.000意味着算法没有预测一个或多个假阳性在整个数据集。记得在1.000意味着算法没有预测一个或多个假阴性在整个数据集。
与其他数据集,不同的算法的结果是不同的。为子宫颈癌厂商,随机森林和XGBoost算法改进从高分到完美的精度和召回。然而,逻辑回归和决策树算法提高更高的成绩但没有达到1.000。
精度问题
一般来说,算法更准确的说人没有一种疾病比识别那些生病,Mienye说。这是一个持续的挑战医疗AI。
原因是算法的方式学习。算法从数据集来自大型医院或国家医疗保健项目。但在这些数据集的大多数人没有条件被检测,Mienye说。”在一家大型医院,一个人去检测慢性肾脏疾病(CKD)。医生给他们,因为他们的一些症状是慢性肾病的症状。医生想要排除慢性肾病。事实证明,没有慢性肾病的人。
“这发生在很多人。数据集与更多的人最终没有CKD,比那些做。我们称之为不均衡数据集。”
当一个算法开始学习的数据集,它比它应该对CKD的了解要少得多,和不够准确诊断疾病patients-unless算法调整的不平衡。
乘船的AI在另一边
Mienye在大西洋附近的一个村庄长大,无法访问的道路。“你必须使用一个快艇离最近的城镇。乘船需要两到三个小时,”他说。最近的诊所是在大城镇,乘船的另一边。深入农村设置他的家乡启发他去看AI如何帮助人们很少或根本没有医疗条件。
一个老妇人从他的村庄是一个很好的例子,如何更先进的人工智能算法可以帮助在未来,他说。敏感的多级ML算法可以评估她的血压的测量数据,钠水平,血糖等等。
如果她的数据正确记录在电脑上,和算法从一个多级数据集学习,未来的人工智能可以告诉诊所工作人员的阶段慢性肾脏疾病她是在。然而,这个村子的情况是在未来。
与成本的敏感性,同时该研究的四个算法更精确的诊断疾病的数值数据集。他们快速学习,使用普通计算机所能找到在一个偏远的小镇。