English version | 旧版链接
An expert is one who knows more and more about less and less.
      ——Nicholas Murray Butler
“大数据”模式的法律风险
谢君泽 | | 2014-7-1 | 6375
继今年6月《广州日报》起诉“今日头条”并达成和解协议之后,近日又传出“今日头条”被围剿的消息。624日搜狐高调起诉“今日头条”侵犯著作权和不正当竞争。同时,国家版权局宣布对“今日头条”立案调查。至此,作为新闻数据的聚集者与加工者的“今日头条”,命运堪忧!然而,该事件对笔者的思考不仅于此,“大数据”模式的法律风险才是更值得关注的问题!

“大数据”模式

      所谓“大数据”模式,其实是将巨量的数据资料通过撷取、分析,从而提取有价值的规律性信息,以供政府、企业、个人等决策使用。换句话说,“大数据”模式本质上是巨量数据的“二次加工”。这种“二次加工”不仅存在于信息空间,也存在于传统世界。

 在信息空间,“大数据”模式的加工对象是各种各样的“电子数据”。笔者认为,“今日头条”就是一种典型的“大数据”模式。“今日头条”并不生产新闻数据,而 是将各个新闻媒体发布的巨量新闻数据进行撷取、分析,进而根据新闻数据的重要性和关注程度推送给用户阅读。这其实是“大数据”模式在新闻行业的应用。

      传统领域也有“大数据”模式。曾经有人与笔者讨论一个商业案例,某零售企业对商业圈内的社区垃圾进行收集和数据分析,并以此判断社区居民的消费需求。这种“大数据”商业模式无疑是成功的。然而,笔者更关心这种“大数据”模式是否侵犯社区居民的隐私权。

实际上,近日的“今日头条”事件,已经凸显了“大数据”模式的法律风险。

“大数据”模式的法律问题

  “大 数据”模式的首要法律问题是数据本身的法律属性。比如说,“今日头条”所撷取的新闻数据可能是不受著作权保护的时事新闻,也可能是享受著作权保护的文字作 品。那么文字作品的著作权或者传播者权如何保护?如果“今日头条”以商业目的对文字作品进行使用,恐怕需要取得著作权人或传播者权人的“使用许可”。具体 取得方式可以是“征求著作权人或传播者权人的同意”或者“支付著作权或传播者权的对价”。再如,前述商业案例中,社区垃圾的数据信息是否属于公民的个人信息,是否属于隐私权的保护范畴?这也是值得讨论的。

  大数据的取得方式也关系到“大数据”模式的合法性问题。就互联网数据而言,目前主要的取得方式是利用“蜘蛛程序”(也叫“网络爬虫”)自动搜索并抓取数据。这种技术有一个专门的协议,即“robots协议”(也叫“爬虫协议”、“ 机器人协议”)。该协议要求所有网站在其站点的根目录下放置一个“robots.txt”文件。该文件告诉搜索者本站点哪些数据可以被“抓取”。如果站点根目录下没有这个文件,则被视为“本站点内所有没有口令保护的数据都可以被抓取”。这就意味着如果有人突破“robots协议”范围抓取网站数据就要承担“侵犯数据”的法律责任。同理,丢弃的社区垃圾是否意味着公民放弃社区垃圾的数据信息呢?

  当然,“大数据”模式的使用目的不同,法律规制的要求也自然不同。企业以商业目的利用“大数据”模式进行生产、经营的,应当严格保护数据权利人的合法利益, 不得随意侵犯数据所附有的著作权、隐私权等权利。而对于非商业目的利用“大数据”的行为,则应区别对待。比如,个人或科研部门以学习、研究为目的对“大数 据”进行撷取、分析的,政府或司法机关以行政决策或打击犯罪为目的对“大数据”进行撷取、分析的,则需要对数据权利进行必要的限制。当然,这种限制是相对 的,绝不是说相关部门和人员可以随意侵犯数据权利人的合法权益。

  此外,像大数据的处理、分析这些“加工行为”如何定性,也是一个值得思考的法律问题。在“今日头条”事件中,“今日头条”只是对文字作品进行撷取、分析并重 新整理,这像是文字作品的“汇编”行为。而前述商业案件中,零售企业在社区垃圾的数据信息基础上,提取出消费需求信息及用户消费规律,这更像是“大数据” 的“创作”行为。

笔者寄语

作为一种新生事物,“大数据”模式所带来的法律问题是值得思考的。从目前看来,“大数据”模式的法律风险主要来自于大数据的来源和取得方式上。然而,如何从法律上看待“大数据”的“加工行为”,以及如何保护“大数据”模式的“加工成果”,则是一个更加长远的法律议题。