数据统治世界?看区块链如何解决数字身份难题

2019-03-27 08:41:00| 查看: 2619|

“那些统治数据的人将会统治整个世界……这是未来人们会说的话。” 这句话出自孙正义之口³ 。如果我们在这个前提上达成一致,那么问题就变成了,你希望谁来拥有这些数据?你是希望这些数据由公司控制,还是希望自己对数据拥有所有权和控制权?

随着我们的生活越来越数字化,我们的数字身份会由我们留下的一系列数字足迹(数据点)组成。因此,数字身份与数据是密不可分的。而以下内容,将概述区块链技术如何通过最小披露模型和可货币化的数据所有权,防止数据的意外访问,然后重点介绍为确保更安全的数据交换而采用的一些技术。鉴于很多技术都严重依赖于我们的数据,保护和拥有我们的数字身份(可以说是我们最有价值的资产之一),已变得越来越重要。

在数字世界,数据= 身份

我们认为,身份可分为两个不同的方面。第一个是“成为一个人或一件事物是什么”的事实。我在之前的文章《数字身份的影响》,集中讨论了区块链技术如何用于创建一个与独特且可验证的“数字指纹”相联系的去中心化个人身份。而接下来,文章将主要关注身份方面的第二点,可将其定义为“决定一个人是谁或一件事是什么的特征⁵。”

“我们到处都留下数字足迹,语音技术的进步以及家庭设备的相应增长,意味着数据收集不再局限于我们的在线生活。我们所有的步骤都可以拼凑到一起,从而准确地描绘出我们做什么、喜欢什么、与谁交谈、花多少钱以及最终我们是谁。”

我不会去调查大规模数据泄露的具体情况,也不会去调查用户数据在很多“免费”和广泛使用的互联网服务商业模式中所扮演的角色。可以肯定的说,我们已失去了对数据的控制,因此,我们对数字身份几乎没有什么控制权。

为什么它是重要的:意外访问和意外推论

或许,最高法院大法官路易斯·布兰代斯(Louis Brandeis)最恰当地将隐私的历史观描述为“独处权”。现在,隐私权将被更好地描述为“控制我们无法停止生成数据的能力”。更重要的是,随着我们每天生成越来越多的数据,这些数据现在引发了对隐私权的推论。我们不能很简单地预测,我们不知道我们的数据被收集到了什么程度,与谁共享,或者它被用于获得对我们身份的洞察方式。有时,我们的数据会以不明显的方式被使用。例如,机器学习可以应用于谷歌搜索,以得出与健康相关的推论,语言模式可通过匿名编写的文本/代码检测,从而推断作者身份,还有无数其他的例子。

关于我们的数据被用来卖的事实,即使我们已开始接受,但背后“数据购买”的目的,我们通常也是不清楚的。

传统上,安全与隐私是两个截然不同的领域,其中安全涉及数据的保护,而隐私则涉及用户身份的保护。由于数据现在是数字身份的一个主要组成部分,二者融合在了一起,而更多的重点放在了隐私上,而隐私在历史上一直是更紧迫安全问题的后座。换言之,在一个多产的机器学习应用程序引起对意外推断的关注的世界中,防止意外访问数据,成为了一个更高的优先级。

各国政府已注意到并开始实施数据隐私法规(例如欧洲的GDPR),但是,数据隐私法规可能会是无效的。

但这并不意味着用户或组织不应该共享他们的数据。保持数据私有,并不意味着数据必须存放在地下贮藏库,真正的问题是意外访问!

区块链技术可通过促进模型,使敏感信息和机制实现披露最小化,通过这些模型,数据所有者可获得允许访问的相应补偿。而以隐私为中心的区块链,还可提供更安全的信息交互方式。

最小披露模型

用户在网上交易时,会反复披露非相关但敏感的信息。例如,如果一家公司需要证明Alice的年龄足以租车,租车公司可能会要求Alice提供一份驾驶执照的复印件,其中包括她的地址、驾驶执照号码以及她出生日期以外的其他人口统计信息,而她可能不想分享这些信息。其实,租车公司只需要知道她是否符合租车年龄,他们不需要知道她的身高或者是否居住在市中心,他们甚至不需要知道她的确切生日,他们只需要知道她已超过了一定的年龄。与多方反复共享不必要的信息,会造成更多的弱点。而最小披露模型,利用区块链技术,大大减少了存储敏感识别信息的各方的传输和数量。

例如,Civic就开发了一个这样的最小披露模型,其重点是利用证书颁发机构创建“可重用的KYC”。Civic创建了一个系统,在该系统中,可使用以前经过审计的PII(个人识别信息)来确保第三方的身份,而无需重新共享基础PII。使用上面的例子,对于Civic而言,Alice只需通过一次KYC流程,然后验证其KYC的实体(不幸的是,这一步仍然需要标准的ID格式)可提供Alice的PII符合某些标准的证明。更具体地说,验证实体可以向租车公司提供一份证明,证明Alice超过了租车所需的最低年龄,而不会透露任何关于Alice的附加信息。而civic token(cvc),则用于激励第三方验证程序提供证明,其也可用于购买“身份相关产品”,如安全登录/注册、多重验证等。正如在多个平台上共享相同的敏感数据会造成泄露一样,在多个平台上使用相同的用户ID和密码,不仅从安全角度来看是不好的策略,而且会导致帐户关联和跟踪的问题。考虑到这一点,微软设计了自己的针对身份验证的最小披露模型。

微软设计了一个开源的、可互操作的第二层DID实现,用户在其中创建一个DID,然后将其链接到非PII数据。用户的实际身份数据(PII)在链外加密并由用户控制。DID是用户生成的,不限于每个帐户一个,这样做的目的是避免在多个平台或服务提供商之间跟踪和跟踪一组登录凭据。DID可以是公开的,也可以是成对的(在隐私很重要的情况下,因此交互需要被隔离和防止相互关联的情况下)。

为了完成一个具体的示例,我们假设Alice想通过外部方的身份验证。Alice将向该方披露一个DID,该方将通过通用解析程序查找所披露的DID,然后该解析程序将返回与该DID对应的匹配非PII元数据。然后,外部方使用元数据中的公钥引用创建一个“挑战”,并与Alice进行“握手”,证明Alice是DID的所有者。为了防止“虚假身份”的产生,最初可能需要证明,直到通过多次证明或背书建立可信度。请求身份验证的组织,可能需要多个证明才能进行更高风险的交互。交易所Coinbase也特别注重身份识别,其成立了专注于此主题的专业团队,最近其还收购过专注于去中心化身份的分布式系统公司。除了身份的其他方面外,该公司似乎还将重点放在最小程度的披露上,因为该公司强调了去中心化身份如何让用户证明他们与社会保障管理部门有关系,而无需出示其SSN的实际副本。尽管社会保障管理局和数字媒体管理局,目前它们是美国最强大的身份信息提供者,但随着世界越来越数字化,Coinbase相信,这种模式最终可能扩展到社会媒体帖子、照片和个人数字身份的其他组成部分。

可货币化的数据所有权

尽管最小披露模型主要关注保护个人标识符(SSN、DOB和其他PII), 但构成用户在线身份的非PII数据点也需要得到保护。如果用户可拥有自己的数据,并控制对数据的访问,理论上,这些数据的价值将附加给其所有者,而不是当前收集数据的平台(谷歌、Facebook、亚马逊)。“数据是有价值的,它们就属于你”,这是美国加州州长Gavin提出的“数字红利”。这使得消费者可分享那些“收集、整理和货币化”用户个人数据的科技公司的利润。然而,这种方法不允许等量的补偿,只相当于对大型科技公司征税,然后平均分配给个人。相反,区块链技术允许一个更动态的系统,在该系统中,用户可控制自己的数据,并可直接将对该数据的访问进行货币化,这与他们选择提供的访问级别相称。

目前,市场上有几家区块链公司,在使用和开发不同的阶段,旨在为用户创造能使他们自己的数据实现货币化的市场。BAT就是这样的一个例子,BAT代表基本注意力代币,这是一种ERC-20 token,在这个系统中,广告商根据用户的关注度给予出版商BAT。用户也会收到BAT,他们可选择将其捐赠给出版商或在平台内使用它们。在未来,广告商可以参与一个系统,在这个系统中,用户收到一个BAT作为一个广告的交换条件。Zinc是另一个具有类似目标的区块链项目,同样,Vetri是一个基于区块链的数据市场,通过该市场,用户可以向营销人员出售匿名数据,以换取VLD代币,而VLD代币可用于在平台内购买礼品卡。

其他例子还包括Fysical和Steemit。Fysical正在创建一个位置数据交换平台,而Steemit 则是一个内容平台,其允许用户发帖点赞等方式获得token。 

数据交换

在数据交换过程中,即使数据是匿名的,也可能发生对数据的意外访问。这是一个问题,因为数据交换是持续创新的必要条件:跨医疗机构共享医疗和基因组数据,可加快新疗法的发现,跨金融机构进行数据分析,可避免金融危机,而共享驾驶数据,则可能对自动驾驶的发展而言至关重要。虽然区块链技术可促进不信任方之间的数据交换,但这种数据交换仍然容易受到隐私问题的影响。幸运的是,有几家区块链公司专注于从一开始就构建以隐私为中心的网络。

Oasis Labs就是这样一家公司。 Oasis Labs正在采用一种完整的隐私堆栈方法,利用可信的执行环境(安全enclave)、安全的多方计算、零知识证明和差异隐私。这限制了在协议层访问数据的各方,并限制了在应用层匿名数据的数据泄漏。Enigma是另一个专注于利用类似隐私技术创建可扩展隐私协议的项目。

挑战

再一次强调,以上列出的区块链项目列表并不是完整的。关于数据隐私项目,你可以查看《数字身份的影响》以及由我的朋友Bosun Adebaki撰写的《区块链与金融包容性的斗争》这两篇文章。

所有权:虽然个人控制对其数据的访问,从而使其货币化的想法听起来很有吸引力,但在实践中,这可能是一个挑战。创建个人数据交换市场的一个问题是,数据产权尚未定义。一旦数据与第三方共享,就很难定义所有权,并且一旦信息已知,就很难阻止该信息的二级市场形成。

评估和支付意愿:最初很难确定不同数据的价值或支付隐私权的意愿,特别是由于用户多年来一直在免费提供数据。此外,还不清楚个人数据货币化所带来的收益,是否足以抵消当前用户体验摩擦(密钥管理等)及不确定性。

追索权:在去中心化的数据交换中,对滥用的追索权也尚不清晰。

在最近的一次视频采访中,马克·扎克伯格就谈到了如何用更分布式的系统取代社交媒体巨头的单点登录(SSO)应用程序Facebook Connect。然而,他也提出了一些同样的问题:

“问题是,你真的想要吗?你是否有更多的案例,是的,人们可能没有中间人,但会有更多的滥用案例,追索将会变得更加困难?”

尽管如此,在某些行业,安全交换数据的需求对于业务的生存能力(例如,自动驾驶)而言是至关重要的,因此企业的价值主张可能更高,足以抵消用户体验或其他方面的任何痛点。既然身份是数字的,身份就与数据密不可分。鉴于很多技术都严重依赖于我们的数据,保护和拥有我们的数字身份,已变得越来越重要。我们需要区块链技术来帮助我们重新获得对数据的控制,因为数据的意外访问可能会导致无法预料的后果。社会已经反映了,我们需要继续建设区块链这样的技术。