研究人员开发“多任务处理”AI工具,以在纪录的时间内提取癌症数据
作为美国第二大致死原因,癌症是一场公共健康危机,几乎每两个人中就有一个人在其一生中受到折磨。癌症也是一种令人难以忍受的复杂疾病。影响70多个器官的数百种癌症类型已被记录在国家癌症登记处——为医生、研究人员和政策制定者提供重要统计数据的单个癌症病例信息数据库。
健康数据科学研究所(health Data Sciences Institute)和能源部橡树岭国家实验室(Oak Ridge National Laboratory)国家计算科学中心(National Center for Computational Sciences)主任吉娜·图拉西(Gina Tourassi)说:“人口水平的癌症监测对于监测旨在预防、检测和治疗癌症的公共卫生举措的有效性至关重要。”“与美国国家癌症研究所(National Cancer Institute)合作,我的团队正在开发先进的人工智能解决方案,通过自动化耗时的数据采集工作和提供近乎实时的癌症报告,实现国家癌症监测项目的现代化。”
通过数字癌症登记处在美国,科学家可以确定癌症诊断和治疗反应的趋势,这反过来可以帮助指导研究资金和公共资源。然而,就像他们追踪的疾病一样,癌症病理报告也很复杂。符号和语言的变化必须由受过分析报告训练的人类癌症登记员加以解释。
为了更好地利用癌症数据进行研究,ornl的科学家正在开发一种基于人工智能的自然语言处理工具,以改善文本病理报告的信息提取。该项目是DOE-National癌症学院合作的一部分,称为癌症(JDACS4C)的先进计算解决方案的联合设计,该协同设计通过利用具有先进数据分析和高性能计算的癌症数据来加速研究。
正如Doe最大的科学实验室办公室,Ornl都拥有独特的计算资源来解决这一挑战 - 包括世界最强大的AI超级计算机和安全数据环境,用于处理健康数据等受保护信息。通过其监视,流行病学和最终结果(SEER)计划,NCI接收来自癌症登记处的数据,例如路易斯安那州肿瘤登记处,其中包括癌症肿瘤的个别病例的诊断和病理信息。
“人工提取信息成本高,耗时长,而且容易出错,所以我们正在开发一种基于人工智能的工具,”ORNL计算和计算科学理事会的研究科学家Mohammed Alawad说,他是发表在《科学》杂志上的一篇论文的第一作者美国医学信息学协会杂志团队的人工智能工具的结果。
在癌症病理学报告中,该团队首次开发了多任务卷积神经网络,简称cnn——一种深度学习模型它通过将语言处理成二维数字数据集来学习执行任务,比如识别文本中的关键字。
Alawad说:“我们使用一种叫做单词嵌入的常见技术,它将每个单词表示为一系列数值。”
具有语义关系的词语——或者一起表达意义的词语——在维度空间中以向量(有大小和方向的值)的形式彼此靠近。该文本数据被输入到神经网络中,并根据寻找数据内部连接的参数在网络层中进行过滤。随着处理的数据越来越多,这些参数也越来越完善。
虽然一些单任务CNN模型已经用于通过病理报告梳理,但是每个模型都可以从报告中的信息范围内提取一个特征。例如,可以培训单任务CNN以仅提取原发性癌症部位,输出检测癌症的器官,例如肺,前列腺,膀胱或其他癌症。但是提取关于组织学等级或癌细胞生长的信息,需要培训一个单独的深度学习模型。
该研究团队通过开发一个网络来提高效率,该网络可以在与单任务CNN大致相同的时间内完成多个任务。该团队的神经网络同时提取五个特征的信息:原发部位(身体器官)、侧性(右或左器官,如果适用的话)、行为、组织类型(细胞类型)和组织级别(癌细胞生长或扩散的速度)。
团队的Multitask CNN为所有五个任务完成并表现出单一任务CNN,在与快速的时间相同的时间。然而,Alawad说:“它不是那么快的时间。这是它是快速的n次。如果我们有不同的任务,那么它将需要一个第n个任务时间。”
该团队成功的关键是开发了一个CNN架构,该架构使各层能够跨任务共享信息,而不会降低效率或降低性能。
“这是计算效率和性能效率,”Alawad说。“如果我们使用单任务模型,那么我们需要为每个任务开发一个单独的模型。然而,在多任务学习中,我们只需要开发一个模型——但是开发这个模型,弄清楚体系结构,在计算上是很耗时的。我们需要一台超级计算机来开发模型。”
为了建立高效的MultASTAST CNN,他们呼吁世界上最强大和最聪明的超级计算机 - Ornl的200-Petaflop峰会超级计算机,它拥有超过27,600个深度学习优化的GPU。
该团队首先开发了两种多任务CNN架构,一种是被称为硬参数共享的常见机器学习方法,另一种是在图像分类方面取得了一定成功的被称为十字缝的方法。硬参数共享在所有任务中使用相同的几个参数,而十字绣在任务之间使用更多的参数,导致输出必须“缝合”在一起。
要培训和测试具有实际健康数据的多任务CNN,该团队使用ORNL的安全数据环境以及来自路易斯安那州肿瘤登记处的超过95,000个病理报告。它们将CNN与其他三个建立的AI模型进行了比较,包括单个任务CNN。
“除了提供HPC和科学的计算资源外,Ornl还有一个培训和存储安全数据的地方 - 所有这些都非常重要,”Alawad说。
在测试中,他们发现硬参数共享多任务模型优于其他四种模型(包括十字绣多任务模型),并通过减少计算时间和能源消耗来提高效率。与单任务CNN和传统人工智能模型相比,硬共享参数多任务CNN在一小部分时间内完成了挑战,并且对五种癌症特征的分类最为准确。
“下一步是推出一个大规模的用户学习,其中该技术将部署在一起癌症注册管理机构确定注册管理机构工作流程中最有效的融合方式。目的,目标不是取代人类,而是增加人类,“Tourassi说。
进一步探索
用户评论