人工智能和机器学习的兴起正在增加应用程序用户、设备所有者、公司、消费者甚至患者对数据的需求。杜克大学福卡商学院决策科学副教授阿里·马赫杜米(AliMakhdoumi)表示,随着需要数据的技术变得越来越高效,关键问题是如何在保护用户隐私的同时激励数据共享。
在《运筹学》杂志上发表的一篇新论文中,Makhdoumi和合著者加州大学伯克利分校的AlirezaFallah、多伦多大学的AzarakhshMalekian和麻省理工学院的AsumanOzdaglar认为,解决方案可能是设计一个衡量用户隐私敏感性并对他们放弃个人数据进行补偿的机制。该论文也可在预印本服务器arXiv上获取。
“在许多机器学习应用中,我们将数据视为给定的,”马赫杜米说。“然而,通常数据是由有自己的隐私问题的个人提供的。因此,问题是:我们应该如何补偿这些关心隐私的用户?在回答这个问题之前,我们需要了解如何保证隐私。”
在他们的研究中,马赫杜米和同事使用了“差异隐私”,这是科技行业广泛采用的一种方法。
他说,这种方法涉及向数据添加噪音,这是一种随机化程度,可以减少共享信息的人所泄露的信息。
他举了一个例子,一家公司查询医院记录,以确定邮政编码范围内患有某种可能敏感的医疗状况的个人的百分比。
“假设数据集显示20%的人患有这种情况,”马赫杜米说。“为了使其私密化,医院在真实平均值中添加了噪声,以便对查询的响应可能显示患有该疾病的个体的百分比是10%到30%之间的某个随机数。”
他还表示,目前隐私保护是在本地或集中提供的。在本地设置中,数据在与处理数据的实体共享之前直接在用户设备上进行随机化。本地化方法的一个例子是苹果公司的隐私设置,该公司在“你的iPhone上发生的事情保留在你的iPhone上”的活动中放大了这一点。在集中式系统中,用户与公司共享原始数据,这会给结果增加噪音。
马赫杜米说,本地系统在商业或其他类型的分析中产生的统计估计不太准确,因为数据在分析之前是随机的。
“这些数据是由个人提供的,”他说。“所以自然的问题是我应该如何补偿这些个人的数据和隐私损失?”
他说,人们对数字隐私的关注程度不同,他们对从平台提供的服务中获得的效用的评价也不同。
马赫杜米说,例如,在医疗环境中,用户可能会认为科学研究的社会效益可能证明牺牲一些隐私是合理的。他说,在不同的环境中,例如社交媒体,甚至在政府研究中,人们可能有不同的内在隐私担忧。
在他们的研究中,Makhdoumi和合著者设计了一种新的数据获取机制,该机制考虑用户的隐私敏感性,为其分配价值,并确定数据依赖平台的最佳激励机制。
通过考虑用户隐私损失的价格和他们从服务中获得的效用,该机制为公司提供了收集数据的最佳方式,同时补偿用户共享其个人信息。
“有些公司已经为用户的数据付费,”他说。
研究还表明,平台集中收集数据的效率最高,这种设置可以确保业务分析获得最精确的结果。
解决隐私问题
马赫杜米说:“人工智能和机器学习等技术在政策制定者和公众甚至可以考虑这些工具如何处理私人信息之前就已经渗透到社会中。”
他说,随着平台了解有关用户偏好和特征的详细信息,风险在于他们利用这些数据点来进行价格歧视和其他对他们有用但对用户有害的操纵。
“例如,如果他们了解个人的财务状况,他们可能会首先以低利率提供贷款,然后再提高利率,”他说。
他还表示,实证研究表明,一些公司能够预测消费者什么时候最脆弱,然后在那个时候,他们可能觉得对他们最有吸引力的时候,瞄准某些产品。
“根据你的身份,他们会为你提供一些东西,例如,看起来很光鲜亮丽,但从长远来看,这会对你造成伤害,”他说。
马赫杜米表示,这项研究是解决数据市场和隐私问题以及不同数据架构对平台、用户和整个社会的利弊问题的第一步。
“在了解数据收集的社会危害方面,我们还有很长的路要走。”