私隐保障是收集数据(data collection)时要面对的一大难题,即使个人资料及数据本身经过加密,用者包括在线行为等在内的“元数据”(metadata)亦可能导致个人身分外泄。香港城市大学(香港城大)研究团队最近研发了一套名为《Vizard》的“可隐藏元数据分析系统”(metadata-hiding analytic system),容许个人资料拥有人自订有关数据的使用权限,相信在不同范畴、例如精准医学研究等领域都具有应用潜力。

香港城大电脑科学系王聪教授带领是次研究,他说:“想像你寄了一封信给你的朋友Alice,虽然信封封口密封,理应无人知悉信件内容,但从封面抬头的资讯,他人会得知‘你寄了一封信给Alice’的这个事实。这就是我们所指的‘周边信息’(side-information),即等同在虚拟世界内的元数据。”

简单而言,单是电脑文件的作者、建立日期、修改时间或档案大小,都属于基本的元数据示例。但许多其他数据,由个人造访网购平台的次数、以至参与癌病研究的纪录等,都可视之为元数据。王教授解释说:“第三方未必得知你所购买的产品或研究的内容,但足够的元数据几近等同隐去的资讯。”他续说:“举例来说,若有一个人既参与癌病研究,又经常造访健康产品的网购平台,就容易令人联想——这名资料拥有人可能罹患癌症或其他疾病。”

充足的元数据几乎等同可追踪个人信息

现时,私隐保障主要是依赖数据收集平台的实务操作,资料拥有人在数据可能外泄的风险下,只能相信平台所订定之守则。研究团队尝试寻找解决方案,透过新研发的系统Vizard改变固有“盲信”科技企业或数据收集平台的机制,同时减低元数据外泄的忧虑。

为了让Vizard成为可全面保护元数据的数据收集及分析平台,王教授的研究团队利用一款名为“分布式点函数”(Distributed Point Function,DPF)的加密工具。DPF 被视为一组可促进安全/加密计算的通用构建组件,用于在电脑计算过程中匿名检索数据信息。王教授的研究团队以DPF作为基础,开发了具备串流特定预处理(stream-specific pre-processing)、加密和吞吐量增强技术的Vizard系统。

同时,Vizard是一个以资料拥有者为中心的控制方案。每个资料拥有人可透过输入简单操作键,包括“AND”、“OR”及“NOT”,自订取用个人数据的要求及条件。举例有一名资料拥有人只授权来自香港的医院取用其个人数据,相关操作键即为 “1)type= hospitals AND 2)region= HK”(意译:类别等于医院、地区等于香港)。

香港城大研发新系统保障个人私隐 避免因在线行为导致元数据外泄

使用心率传感器收集数据的处理流程示例(图左),以及在订定数据取用条件下的安全数据转换(即数据取用要求,图右)。Vizard在系统内保留了部分公共元数据(包括这次例子中的年龄组别和国家),以促进不同数据流程的处理分组及过滤。

(图片来源:Cai, C. et al. https://dl.acm.org/doi/10.1145/3548606.3559349)

另外,团队亦展示了新研发系统的运作效率。假设在Vizard内存有一万人的个人数据密文,当中每名资料拥有人都自订一项数据取用条件,而系统亦只需4.6秒即可处理外来的数据取用要求。

隐藏元数据有助促进以数据驱动的研究

这次的研发项目,建基于团队先前所研发的实用数据分析系统。该系统可在无解密状态下处理加密数据,有别于现有的数据处理流程,令黑客无从入手盗取数据。

为进一步保障个人数据,研究团队建议在新系统Vizard加入一个“计算结果发放控制委员会”(Result Release Control Committee,RCC),并由不同持分者包括资料拥有人、政府机构或组织所组成。此后,委员会跟资料拥有人可一同制定如何保护未经发放的计算结果,例如可要求对计算结果的正确性进行验证、提供私隐保障,甚至是付费取用等不同条件,这些计算结果发放规定将可透过去中心化的RCC委员会的认证而得到保障。

香港城大研发新系统保障个人私隐 避免因在线行为导致元数据外泄

Vizard主要由资料拥有者、数据取用者、安全数据处理流程及“计算结果发布控制委员会”(Result Release Control Committee)四个部分组成。

(图片来源:Cai, C. et al. https://dl.acm.org/doi/10.1145/3548606.3559349)

王教授说:“这套可隐藏元数据的共享加密数据系统,可用于医疗保健、商业机构或政府部门等需要大数据分析来制定更精准决定的领域或行业。举例来说,不同地区的医院可安全地共享患者的医学数据,有助于疾病诊断和进行医学研究。”

这项研究成果已经在《ACM计算机和通信安全会议2022》(ACM Conference on Computer and Communications Security (CCS) 2022)发表,题为〈Vizard: A metadata-hiding Data Analytic System with End-to-End Policy Controls〉。而ACM计算机和通信安全会议是一个云集国际信息安全研究人员的旗舰年度大会,会上发布的研究均获同行评审,接受发布率约22.5%。

这次研究的第一作者为蔡承均博士,他曾为王教授研究团队的博士后,现时为香港城市大学(东莞)(筹)的研究员。王教授是通讯作者,其他合作研究员包括香港城大电脑科学系讲座教授兼系主任贾小华教授、博士生臧怿晨先生,以及武汉大学国家网络安全学院的王骞教授。

研究获得香港研究资助局、InnoHK创新香港研发平台及国家自然科学基金委员会拨款资助

香港城大研发新系统保障个人私隐 避免因在线行为导致元数据外泄

香港城大电脑科学系王聪教授。(图片来源:香港城市大学)