人工智能揭示了葡萄糖如何帮助SARS-CoV-2病毒
为什么有些人患病并死于COVID-19,而另一些人似乎完全不受影响?EPFL的蓝脑项目利用其强大的大脑模拟技术和在细胞和分子生物学方面的专业知识,试图回答这个问题。
蓝大脑的一个小组组装了一个人工智能工具,可以读取成千上万的科学论文“血糖水平在COVID-19严重程度中的作用的机器生成观点”于今天由公共卫生前沿
为了应对COVID-19大流行,我们制作了包含40多万篇学术文章的COVID-19开放研究数据集(CORD-19)开放获取,包括超过15万篇与COVID-19、SARS-CoV-2和其他冠状病毒相关的全文论文。CORD-19数据集是目前可用的最广泛的冠状病毒文献集合数据挖掘迄今为止,它背后的联盟向人工智能专家提出了挑战,要求他们应用自然语言处理和其他机器学习技术,以产生新的见解,可能有助于持续对抗COVID-19。
“自2020年初以来,蓝大脑一直积极为抗击COVID-19做出贡献,”蓝大脑项目创始人兼主任亨利·马克拉姆教授解释说。“有了这个行动呼吁,我们意识到我们可以利用我们的机器学习技术以及数据和知识工程专业知识来开发文本和数据挖掘工具,以尝试和帮助医学界。《蓝大脑》着手回答这场大流行最令人困惑的一个方面——为什么有些人病得很重,而另一些人则完全不受影响。”
构建和使用文本和数据挖掘工具
因此,蓝大脑建立并训练了机器学习模型来挖掘这些论文,并从文本源中提取结构化信息。这个文本挖掘工具箱“蓝脑搜索”对CORD-19v47数据集进行了简单的分析,揭示了所有指向的论文葡萄糖代谢作为最常被提及的生物变量。
使用蓝色的图,一个统一的Python框架,可以分析提取的文本概念来构建知识图,该小组构建了特定的知识图,专注于在呼吸道疾病、冠状病毒和COVID-19的背景下考虑葡萄糖的所有发现。这使得探索葡萄糖在许多层面上的潜在作用成为可能,从最肤浅的症状关联到与疾病有关的最深层生化机制。
从挖掘的数千篇论文的事实和发现中,多条证据表明,血糖水平升高要么是由异常的糖代谢引起的,要么是在住院、药物治疗或静脉注射期间引起的。这种方法与人群中COVID-19的严重程度高度相关,并揭示了葡萄糖升高如何帮助病毒感染的几乎每一步,从肺部发病到严重并发症,如急性呼吸窘迫综合征、多器官衰竭和血栓形成事件。
蓝大脑的分子生物学家Emmanuelle Logette博士透露:“随后,我们在论文中讨论了这一假设的潜在后果,并提出了进一步研究诊断、治疗和干预的领域,这可能有助于减轻COVID-19的严重程度,并帮助管理大流行对公共卫生的影响。”
开放获取科学论文的潜力
“当大流行开始时,科学家们立即投入工作,并在一年内发表了10多万篇论文。但是,谁能看得懂这么多论文呢?有人能看到并理解所有这些研究的所有模式吗?”亨利·马克拉姆教授问道。“幸运的是,CORD-19数据集背后的联盟说服了所有订阅出版商将这些论文引入订阅付费墙,并使它们可以公开访问,以便使用现代机器学习和知识工程技术来挖掘它们。”
“通过访问CORD-19数据集,蓝大脑迅速组装了一个人工智能工具,并将其作为目标,试图找出为什么有些人会生病,而有些人不会。仅仅说老年人更脆弱就够了吗?我们必须找出原因。为什么一些看似健康的人死于COVID-19?为什么这么多人死在重症监护病房?为了回答这些问题,我们指示人工智能追踪病毒感染的每一步,从病毒进入肺部的那一刻起,直到病毒从肺部细胞中爆发并扩散到全身,感染器官,”Markram教授解释道。“我们还在原子水平上构建了病毒,并开发了一个感染的计算模型,这样我们就可以尝试测试文献中得出的结果。我认为我们确实找到了最可能的原因,为什么有些人比其他人更容易生病,”他总结道。
这方面的一个例子是团队使用的蓝脑生物探索者目的:直观地显示气道表面液中高糖对肺部感染的主要影响,并解释高危患者对呼吸道病毒易感性的增加。
Blue Brain BioExplorer旨在为这项研究重建、可视化、探索和详细描述冠状病毒的结构和功能,并且是开源的,供其他人使用来回答关键的科学问题。
“开创模拟神经科学以更好地理解大脑有许多附带的好处,”Markram教授说。“这项研究表明,蓝脑的计算技术和独特的多学科专家团队可以迅速重新定向,帮助应对全球健康危机。”
这是科学和理解大脑的重要一步
马克拉姆教授解释说:“对COVID-19的研究也表明了为什么我们认为计算工具对帮助我们了解大脑如此重要。”“问题甚至更大。人们需要阅读和理解数百万篇科学论文,才能弄清我们对大脑的了解。有人知道我们知道什么吗?但是,机器可以读这么多论文。实际上,这只解决了部分挑战。有了一个可以阅读所有这些论文的人工智能工具,我们仍然只知道其中的一小部分大脑包含及其工作方式。但使用设计原则构建模型大脑,有助于我们尝试并完成图像。”
只在大流行期间开放科学是正确的吗?
马克拉姆教授还表达了他对订阅出版商锁定科学知识的普遍做法的不满。“当CORD-19文献数据集提供给我们时,我们蓝大脑的技术能够将我们的技术指向COVID-19,并在与这种致命病毒的战斗中提出一个重要问题的答案。因此,当同样的技术可以用来帮助解决许多其他疾病,加速科学,并帮助拯救地球免受气候变化影响时,只在大流行期间向公众开放(公共资助的)科学论文是正确的吗?”
更多信息:Emmanuelle Logette等人,血糖水平在COVID-19严重程度中的作用的机器生成视图,公共卫生前沿(2021)。DOI: 10.3389 / fpubh.2021.695139