大数据革命的商业与法律起源

胡凌

大数据伴随着互联网产业的发展而产生，特别是移动互联网和物联网的兴起，使得数据搜集更为便利和广泛。同时，数据分析业务开始成为互联网行业的特色和主营业务，它可以更为精准地分析和预测消费者与客户的行为，带来更多价值，从而迫使传统行业纷纷向互联网靠拢。大数据革命作为一种被投资人追捧、被媒体炒作的概念还将持续升温，但人们往往忽视大数据在中国成为现实的历史进程和诸多条件，特别是网络经济作为一种新兴的经济力量如何借助成熟的商业模式和不完备的旧法律制度来开拓疆域。
笔者将简要讨论这些因素，试图帮助理解未来如何发生。首先，作为一个整体的互联网行业发现了免费模式，在吸引消费者的同时获得了大量数据资产，这一过程伴随着互联网平台和移动互联网的兴起变得更加明显。其次，新经济通过生产工具的变革重塑了互联网的架构，从更多的免费劳动力手中攫取有价值的生产资料。第三，无论是免费内容还是消费者数据，互联网都没有受到强大的法律约束。而商业模式、技术变迁和用户协议中体现的所有权和使用权的分离原则为大数据时代铺平了道路。最后，互联网带来的由商品到服务的转变，进一步扩展了新经济对数据的占有和使用，并对保护旧生产方式和生产力的传统法律提出挑战。

免费商业模式与数据资产

免费内容与服务基本上已成为互联网行业的标准模式，通过免费来吸引用户，赚取广告收入和增值收入。如果说最早的门户网站还秉持着传统媒体经营的思路，那么从电子邮件、即时通讯到安全软件、网络游戏等行业纷纷实行免费，都证明了这一逻辑的势不可挡。
免费商业模式的影响是巨大的，它将传统垄断经济学上的“双边市场”理论推到极致，依托多个免费的产品市场吸引用户，而通过少数市场获取增值收入；因为可以向无数用户同时提供低成本的服务，只要有少数人付费即可获利。这就是为什么很多互联网公司在提供一项主要服务以外，都逐渐扩展至各种服务。互联网公司之间的竞争也不仅仅局限在单项产品市场中，而是跨越多个市场的综合竞争（Evans, 2011）。这一点最近在腾讯垄断案中得到广东省高级法院的确认，拓展了人们对新经济本质的认识。
这些免费服务被一些互联网公司视为“基础服务”，与“增值服务”相对应。它们不靠一次性出售书籍、光碟、报纸、流量获利，因而是对传统文化产品、媒体和电信服务生产方式的反动。消费者享受了免费而便捷的基础服务之后，才有动力留在互联网上进一步消费。可以看到，基础服务的范围在不断扩大，从信息内容逐渐扩展至金融、保险、医疗、教育和邮政领域。用户使用的基础服务越多，互联网企业对其偏好和信息的了解就越广泛，并通过大量用户类似行为进行相关性分析。（Schönberger & Cukier, 2013）
在这一过程中，数据本身对这类轻资产公司而言越来越重要，其价值可以得到二次或多次挖掘，逐渐成为一种宝贵资产。基础服务本身要求被免费提供，而基于数据分析提供的增值服务才是互联网价值链上最耀眼的一环。从这个意义上讲，互联网并非传统媒体和文化行业的竞争者；它们需要把后者纳入其平台，承认自身的地位，并迫使其合作。互联网十余年来同音乐界、文学界、影视界和电信业的战争已经无数次说明了这一点。（Levine, 2012）
这也是为什么互联网内部的不正当竞争越来越围绕数据资产展开，例如大众点评网和爱帮网的诉讼，以及最近的360综合搜索与百度的纠纷。越来越多的互联网公司开始通过技术手段保护自己的数据资产不被恶意复制和侵占，这些信息内容可以免费被消费者使用，却不能被其竞争对手轻易获取，防止反过来同自己展开竞争。为完美地实现这一点，互联网平台的兴起在所难免。通过对内容、服务、应用、操作系统、硬件终端甚至是管道的垂直整合，互联网公司可以排他地向用户提供一站式服务。苹果公司的产品就是一个极好的例子，也成为众多互联网公司效仿的榜样。1990年代中期，微软因在windows操作系统上捆绑独家IE浏览器和媒体播放器而受到反垄断指控并受处罚，但十余年后终端捆绑现象无处不在，这说明了互联网架构从开放转向封闭已经深入人心。（Zittrain, 2008）

无处不在的计算、终端和劳动力

在发展过程中，互联网形象在人们心目中经历了不同的想象：从新媒体、信息服务到现在的数据分析业。前两者甚至决定了国家管理互联网的基本思路：归口和属地化管理。但数据分析业务将真正超越条块分割的现状，从各种渠道和方式获取价值。一旦互联网行业无法被封杀打压，在积累了海量数据的基础上，它们就会减少对纯粹吸引用户的基础服务的需求（可以同传统行业展开合作或者外包），减少对盗版内容的需求，从而向更加精细的大数据分析进发。
海量数据的获取离不开数据聚合处理的平台，以及生产数据资产的劳动力和工具。随着移动终端的大规模普及和背后云计算的支撑，个人电脑不再是用户接入互联网的唯一方式，甚至不再是主要方式。未来的眼镜、手表、汽车、各种可佩带物品均可成为人们相互沟通、获取信息的媒介和硬件。人们通过这些信息终端使用在线服务的时间和地点，将不像台式机时代那样固定。当人们可以在盈余时间中使用无处不在的互联网服务时，大量个人数据就可以更容易地得到深度记录和分析，生产工具的廉价和普及为大数据时代奠定了物质基础。（Shirky, 2010）
从数据生产的意义上讲，用户和互联网的关系不仅仅是消费者和服务提供者的关系，或者反对传统利益和权力的同盟军的关系，而是可以被看成是免费劳动力和工厂的关系。互联网时代预示着人们不再是被动的文化产品消费者，他们通过创生性的终端同样可以成为文化的生产者和创造者。对新经济而言，用户不仅仅是他们自身文化的生产者，同时也在为互联网企业生产信息内容（Scholz, 2012; Boutang, 2012）。每时每刻都有大量的文字、图片、视频上传至网上，在用户之间分享。信息传播和流通的速度越来越快（可以比较下早期的BBS和当代“共时性”的微博），同信用货币一样，信息能够转化为更多的价值。同时，在一系列意识形态的鼓舞下（言论表达自由、信息自由流通、礼物经济、分享、合作、积极行动），用户对群体生产者的身份引以为傲，这进一步推动了互联网经济的发展。
如果说用户是初级生产资料（非结构化数据）的生产者，第三方应用开发者（或者参与QQ互联的网站）则是大数据时代新经济生态系统的次级生产者和初级挖掘者。他们从平台提供商那里获得开放API接口和不同目标用户的信息，开发各种应用服务，获得的收入与后者分成，反过来又增加了平台的整体价值。平台免除了中小开发者自己开办网站积累流量、从头搜集用户数据的不确定性，允许他们有条件地使用自己的海量数据。未来随着平台和终端可以扩展至对一切事物的控制，用户越来越难以转换到另一个竞争性的平台，从而成为某一割裂的互联网帝国的忠实属民。

所有权与使用权的分离

上述围绕数据展开的复杂权力结构和利益关系的法律基础常常被忽视，这一基础可以归纳为法律学者耳熟能详的“所有权与使用权的分离”。尽管很多学者还在探讨信息所有权的法律结构，现实已经清楚地表明：互联网时代的信息所有权并不重要，重要的是谁有权使用各种信息和数据，能够产生何种价值。
首先，如前所述，终端经历了从台式机到无处不在的信息设备的演化。当人们的文档、图片、音乐还能够储存在本地、通过本地计算使用的时候，很容易将其比拟成可以支配和控制的“财产”。然而，当越来越多的个人文档被鼓励上传至云端，能够通过移动终端随时访问时，它们将脱离拥有者的控制，并被云储存服务商进行使用和分析。通行的用户协议要求至少以分析的方式永久使用用户上传的个人文档，要求获得这种使用权，是大数据产生价值的必然要求。
其次，类似地，当人们通过磁盘或光盘安装某种软件或游戏的时候，对物理实体的认知容易将这类产品视为和鞋子一样的“财产”，因为可以自行掌控。然而当越来越多的软件、信息内容和游戏通过在线方式提供，并可以随时更新的时候，它们不再被看成产品，而是一种源源不断的服务。用户需要容忍它们的质量瑕疵，甚至无法获赔由此造成的损失。通过用户协议进行的这种约定，有利于向大规模用户同时提供服务，并将互联网公司自身的风险降至最低。它们不会授予用户所有权，而只是免费的无保障的使用权。类似的机制，还普遍体现在网络游戏中的虚拟物品和企业虚拟货币上面，它们迎合了人脑对金钱和实物财产的敏感和本能欲望，却绝不通过用户协议为用户创设财产权利，从而并不保护这类“虚拟”（illusionary）产权。
再次，像百度MP3或文库那样的利用盗版作品的服务模式一度促成了互联网的“非法”兴起。这可以部分归因为互联网公司从免费使用盗版作品获得的可能收益远远超过侵权损害赔偿数额，部分归因为各种官办著作权集体管理组织维权的低效。同时，由于存在“避风港”规则的庇护，作家或音乐人长期以来只能要求互联网公司被动地删除侵权作品，而不能强制其主动监控侵权内容。因而，在大量盗版作品被通知删除之前，互联网公司事实上通过使用而获得了非法收益。“避风港”规则意在平衡新旧利益，但实际上保护了作为一个整体的靠免费信息内容为生的互联网行业。更重要的是，互联网免费模式要求在生产方式上（opt-out）改变传统的授权模式（opt-in），这进一步凸显了使用权的重要性。（胡凌，2013）
第四，互联网还通过各种机制鼓励用户为其生产信息内容。这一生产活动的最终分配，通过用户协议明确约定：即用户仍然对其发表在某一互联网服务公开区域上的内容享有所有权，但同时要授予互联网公司享有永久和免费的使用权。这一条款能够确保互联网上永远有信息存在和不断流通，即使用户注销其账户，也无权要求从服务器上彻底删除全部个人活动和信息。这是两权分离带给互联网的最大好处。同时，关于用户隐私的约定，也仅限于那些能够直接识别出用户身份的基础信息，对于能够从用户网络行为中发掘出的大量有价值的数据，则无需用户同意即可使用，这就为大数据分析扫清了法律障碍。
最后，从平台提供商和第三方开发者的关系来看，也存在两权分离的广泛实践，即第三方中小开发者作为外包的劳动力，可以免费使用平台的API接口和某种特定类型的用户信息，由此产生出的价值再和平台提供商分成。《互联网周刊》主编姜奇平先生很早就看到了两权分离作为新经济模式的核心特征（姜奇平，2012）。然而，他始终强调的是这最后一点，却没有提及大量用户在所谓“分享型经济”中初级生产资料提供者的地位。再次回到前述观点，用户帮助互联网战胜了传统利益群体，同时，也将自己牢牢捆绑在新经济的机器上，通过集体行为像农民一样不断为领主生产食粮，或者更不恰当地，像蜜蜂一样不断为养蜂人生产蜂蜜。

大数据的法律障碍

至此可以看出，大数据革命的重要现实条件，是拥有海量数据的平台出现，围绕互联网平台及其封闭价值链，产生了一系列初级和次级的资产提供者。因此，围绕数据资产的争夺就成了互联网治理中重要的争论议题，我们由此可以理解，为什么谷歌联合创始人会把苹果公司和facebook同中国与好莱坞放在一起批评，因为它们都阻碍了数据在世界范围内的自由流通，从而阻止其从中获利（Katz, 2012）。我们同样也可以理解互联网公共领域的实质和局限，例如，尽管社交网络允许人们迅速发布传递消息和真相，挑战传统权力和媒体，但社交媒体的架构，仍然从属于商业化盈利的需求，进而影响甚至决定网络言论和表达的效果。
未来的大数据发展面临着一系列约束数据和信息流通的障碍，而互联网巨头一直要求打破这些障碍，解放各种信息，并在自己的势力范围内重组。中国目前和互联网相关的法律，仍然是以原子时代的思维方式，一味依靠政治逻辑进行治理，而没能够从商业逻辑角度思考互联网的本性，由此，不仅没能有效规制互联网产业的有序竞争，还影响了其他重要社会价值的实现。
在商业逻辑看来，约束个人信息流通的法律至为关键。隐私保护在中国的法律制度中一直处于灰色地带，因为中国幅员辽阔，又处于从农业熟人社会向工商业陌生人社会的急剧转变当中，很难统一人们对隐私权的认识和实践。互联网第一次用实践强行统一了标准，即通过用户协议将互联网隐私界定为可以追溯和识别个人身份的基础信息。无论用户是否真正阅读，这都是一种进步，它适应了信息技术的现实，取消了传统的空间隐私权的地位，并承诺未经用户许可不向第三方出售或转让用户隐私。缺陷则在于，没有赋予用户对个人数据的控制权，加之大部分用户对个人数据安全的无谓心态，都直接造成了个人信息无序搜集、买卖和盗窃的泛滥。
巨头平台的兴起，对个人数据利用的混乱状态可能是一个纠偏，允许第三方开发者有效有序地开发，却默认了自身的合法性。如果中国未来的个人信息保护法像欧盟一样严厉，那么很难设想现有的巨头还会继续存在。鉴于互联网经济的持续影响，基本上可以肯定中国不会效仿欧盟的实践，而很可能进一步区分属于人格权和基于空间形态的传统隐私与更加中立的个人数据，从而为新经济的发展保驾护航。消费者们也可能继续拥护这个二分法，允许互联网创新进一步发掘波兰尼意义上的默会知识和情境知识，从而更好地满足自身的需求（Weinberger, 2012）。而且，通过算法和机器对个人信息进行的分析与预测，似乎也不同于以往人为地侵犯个人尊严的行为，例如搜查和监视。
研究已经表明，即使经过匿名化处理的数据，仍然可以追溯至具体的个人，可见，以“是否能够直接识别”为标准不足以保护用户的隐私（Ohm, 2010）。更何况，用户完全失去了对个人数据的控制，并不能知晓这些数据在未来能够以何种方式被创造性地挖掘和利用。问题的实质，仍然在于用户的自主选择，在于他们是否有意愿自己掌控数据的流向与使用。对于掌握大数据的企业，同样有必要对其使用用户数据的行为进行监管，但无论如何，上述历史，反映了互联网企业如何通过用户协议和隐私法律的模糊，利用用户数据进行搜集和使用信息，而讨论任何未来的法律，都不会实质性地损害到新经济的根本。
版权法是阻碍大数据革命的另一个障碍。和隐私相似，如果版权法过于严格，则会影响依靠海量信息生存的互联网发展。中国互联网的历史已经基本排除了这种可能性，作为一个整体的互联网行业不会因为盗版的“原罪”而被摧毁，更何况它们正在努力漂白，不仅为自己的合法性宣传，也为拓展业务同旧利益群体开展合作，通过更新的生产方式而游说立法者，试图将法律体系按照它们的意愿重新塑造，例如网络广告、反垄断、在线交易征税、电子货币、投资结构等等。围绕信息网络传播权展开的大量诉讼，都表明法律最终没能解决盗版侵权问题，真正解决问题的毋宁是新旧利益之间的密切合作，互联网产业真正做到了让自己成为旧法律的“例外者”。
新经济的一个更为长远的意图在于将我们日常生活的世界全部数字化，从而可以交由某一个先进的算法进行处理，当算法可资处理的数据足以反映人类社会最为基本的关系和行为的时候，真正意义上的人工智能就诞生了。但这个过程并非田园诗般美妙，而是伴随着利益的争斗和权力关系的消长。大数据革命是我们过去的互联网时代的延续，而非某种“惊人的一跃”。塑造互联网过去发展的商业模式和法律制度，仍将继续影响未来大数据的实践。可以预见的未来，将是互联网产业进一步破除阻碍信息流通的种种障碍，获取更多可分析的数据，并不断从传统法律保护的种种利益和价值中获利。笔者认为，必须将劳动重新引入法律分析，因为传统法律保护的利益在互联网时代全都可以转化为点滴的集体劳动，并可以成为赢利的资产，例如言论、隐私、版权和信息财产等，否则，我们就无法理解用户在互联网崛起过程中扮演的关键角色。

限于篇幅，本文无法讨论数据挖掘和预测的工具（“算法”）的历史及其社会效果，读者可以参考两本新近出版的著作进一步思考。（Schönberger & Cukier, 2013; Gitelman, 2013）

（作者单位：上海财经大学法学院）