两种方法de-identify大病人数据集再次鉴定的风险大大降低

两个de-identification方法,k-anonymization和添加一个“模糊因素,”显著降低的风险再次鉴定的病人从大型数据集的500万份病历在挪威宫颈癌筛查项目。

这项研究发表在癌症流行病学,生物标记与预防》上,美国癌症研究协会杂志》,通过gisk Ursin,医学博士,博士,主任癌症登记处的挪威,学院以人群为基础的研究。

“研究人员通常得到消除识别信息,数据没有任何个人识别信息,如姓名,地址,社会安全号码。然而,这可能不足以保护个人隐私的参与研究的一项研究中,“Ursin说。

病人数据集通常有敏感数据,如一个人的健康和疾病的诊断信息,一个人可能不希望公开分享,和数据托管人负责维护这些信息,Ursin补充道。“人有权限访问这些数据集必须遵守法律和道德准则,但总有这种担心,数据可能落入错误的人手中,被滥用,”她补充道。“作为数据托管人,是我最差mightmare。”

测试他们的力量de-identification技术,Ursin和他的同事使用筛选数据包含5693582条记录从挪威的911510名妇女宫颈癌筛查项目。数据包括患者的出生日期,和宫颈检查日期,结果,实验室的名字跑测试,随后癌症诊断,如果有的话,和死亡日期,如果死去的。

研究人员使用一个工具叫ARX评估鉴定的风险接近数据集使用的“检察官的场景中,“工具假设攻击者知道一些关于个体的数据集的数据。攻击被认为是成功的,如果大部分的个人数据集可以由人之后获得的一些有关这些人的信息。

团队评估鉴定风险在三个不同的方面:首先他们用原始数据来创建一个真实数据集包含所有上述患者信息(D1)。接下来,他们“k-anonymized”记录的数据通过改变所有的日期到本月15日(D2)。第三,他们之间的数据通过添加随机因素模糊4 + 4个月(零除外),每个月的数据集(D3)。

通过添加模糊因素对每个病人的记录,出生几个月、筛选、和其他事件改变;然而,之间的间隔程序和程序的顺序被保留,这确保了数据集仍然是用于研究目的。

“我们发现,改变日期使用标准程序k-anonymization大幅减少的可能性re-identifiying最个人的数据集,”Ursin指出。

在D1,检察官识别一个人的平均风险为97.1%。超过94%的是独特的,因此患者跑之后的风险。在D2中,检察官识别一个人的平均风险降至9.7%;然而,6%的记录仍然是独特的,跑的风险却不置一词。添加一个模糊因子,在D3,没有进一步降低再次鉴定的风险:检察官识别一个人的平均风险是9.8%,和6%的记录被之后的风险。

这意味着有许多独特的记录在D3 D2。然而,爬个月所有记录的数据集通过添加模糊因素使得人们更难检察官联系从这个数据集记录在其他数据集和之后一个个体,Ursin解释道。

“每次一个研究小组请求以访问数据集,数据管理者应该问一个问题,“他们真的需要什么信息和细节是什么,不需要回答的研究问题,“尽一切努力崩溃和模糊的数据,以确保保护病人的隐私,”Ursin说。

病人数据一般很好维护和鉴定还没有一个主要威胁,Ursin补充道。“然而,鉴于最近的趋势在共享数据,结合数据集对于大数据analyses-which总是是一个很好的发展机会的信息不怀好意地落入别人的手中。数据管理者,因此,正确地担心未来潜在的挑战,继续测试预防措施”。

根据Ursin,这项研究的主要局限是本研究中数据匿名化方法是特定数据集使用;这种方法是独一无二的,应该设计基于数据的性质。

Ursin声明没有利益冲突。

引用:两种方法de-identify大病人数据集的风险大大降低鉴定(2017年7月28日)2022年12月15日从//www.puressens.com/news/2017-07-methods-de-identify-large-patient-datasets.html检索
本文档版权。除了任何公平交易私人学习或研究的目的,没有书面许可,不得部分复制。内容只提供信息的目的。

进一步探索

当前性能措施促进overscreening宫颈癌筛查

0股票

反馈给编辑