网络数据爬取技术作为技术自动化运行的基础,需要及时厘清行为法律边界以规避法律风险。本文将从网络数据爬取行为的辨析、数据爬取相关规范及其适用,结合典型司法案例分析网络数据爬取行为带来的法律风险,探讨数据爬取技术在我国法律实践中的适用方式。

网络数据爬取技术行为规范 

互联网技术的发展,为信息沟通、数据交换提供了一个宽广的平台。伴随着网络数据访问量的快速增长,网络数据的获取和筛选已远非人力所能及,因此网络数据自动化爬取技术成为互联网信息交流中不可或缺的一环。网络爬取技术伴随着互联网搜索技术而生,是现代互联网数据信息交换的基础技术之一。网络爬虫是一个自动下载网页的程序,它根据既定的抓取目标,获取所需要的信息。爬虫按照一定的规则,自动地抓取万维网信息的程序或者脚本。其目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。技术的进步允许爬虫以更快的速度,更高的准确率为用户实时提供所需的数据。智能搜索、智能语音合成等技术便是数据爬取技术在信息服务领域应用的典型范例。

作为一种数据获取工具,网络爬虫的使用可以提升使用者的数据收集效率。但是技术的无限制使用必然带来混乱和网络秩序的崩溃,因此需要通过技术规范和法律规范的双重约束,进一步规制爬虫技术的使用范围和法律边界,防止爬虫技术被滥用侵害网络信息权利人的合法利益。

1

网络数据爬取相关的技术规范

在技术规范方面,当前的网络爬取技术主要遵循“robots协议”, “robots协议”又称作robots.txt文件,是一个存放于网站根目录下的ASCII编码的文本文件。该文件中存储有网络爬虫可以爬取的限定范围。在网络爬虫爬取网页数据前,会首先浏览robots文件,确定能够爬取的数据范围,在网页提供者允许的范围内进行数据爬取。

“robots协议”并非某一公司或组织制定的,而是源起于20世纪90年代互联网从业人员的公开邮件自由讨论并产生的。1994年6月30日,经过搜索引擎研究人员和被爬墙网站站长的协商,共同起草了第一份“robots协议”。自此之后,“robots协议”成为头部搜索技术企业共同遵守的规范,如Google、Bing等跨国企业,百度、搜狗等国内公司相继采用该规范并严格遵守。“robots协议”成为规范网络空间、构建健康网络生态的基石。

但“robots协议”并非面向所有网络信息数据参与者的强制规范,而是以“君子协定”的形式规制网络数据采集者的行为。“robots协议”本身不能阻挡未经许可的爬取行为,也不会对数据进行实质性保护,数据提供方能否受到保护,完全取决于数据爬取方是否愿意遵守技术规范。面对浩如烟海的互联网,必然会有部分参与者试图通过爬取数据攫取不法利益。对于网络爬虫的使用方,可以选择绕过“robots协议”的验证,直接获得相关数据。因此面对非善意的爬取行为,数据提供方会使用反爬虫措施对数据进行保护。如果数据爬取方以超越提供方许可范围的形式进行操作,将会使数据提供方的利益不能得到保护,因此需要法律规范进一步规制网络参与者的行为。

2

网络数据爬取相关的法律规范

相对于技术规范,法律规范的设立不可避免地存在滞后性。数据爬取技术是一个复杂的综合体,其中不仅涉及数据来源合法性、著作权权属等实体问题,也包括爬取行为、爬取对象、应用范围等过程问题。本文主要针对数据爬取过程中的法律规范、立法本源以及保护范围进行探讨。

(1)  数据爬取行为导致的民事侵权问题:数据爬取行为中涉及的民事权益至少包括个人权益的个人信息权、财产权、知识产权,竞争法权益中的经营者利益、竞争秩序等,因此需要综合民法典侵权责任编、著作权法、反不正当竞争法等法律法规对行为进行综合规制。

例如《民法典》人格权编第1038条对自然人的个人信息保护做出如下规定:“信息处理者不得泄露或者篡改其收集、存储的个人信息;未经自然人同意,不得向他人非法提供其个人信息,······信息处理者应当采取技术措施和其他必要措施,确保其收集、存储的个人信息安全,防止信息泄露、篡改、丢失”,对个人信息保护进行规制。

在商业领域主要通过反不正当竞争法进行规范,例如《反不正当竞争法》新增加互联网专条,针对企业通过互联网从事生产经营进行专门的规制:“经营者不得利用技术手段,通过影响用户选择或者其他方式,实施下列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:······”互联网专条进一步细化了互联网经营者的责任,在一定程度上代替第二条成为规制互联网不正当竞争行为的专属条款。究其本源,是进一步规范互联网参与者责任,防范滥用网络爬虫技术对个人和互联网经营者权益的损害。

对于爬虫技术,其主要的使用者是拥有大规模网络资源的互联网经营者,通过海量的爬虫获取相关网页信息进行导引或存储,进一步提升本经营者对于互联网用户的吸引力。由于互联网数据的特殊性,难以通过开发成本、获取利润等财务数据对其价值进行量化。因此在界定保护范围时不宜以狭义的财产价值评估互联网数据的保护价值,而应当综合评判互联网数据的流量、关注度、社会价值等指标厘清以厘清保护范围,从而推动互联网经营者对于数据爬取技术创新,重视爬虫技术可能带来的侵权风险。

(2)  数据爬取行为引发的刑事责任问题:近十年来,由于数据采集规模快速增长,所采集的领域也逐渐从开放数据向商业数据、个人信息数据等敏感领域扩展,此类行为不可避免地从民事侵权行为逐渐转向犯罪行为。

在2008年,刑法修正案(七)正式加入非法侵入计算机获取相关数据行为的罪名;2011年发布的《最高院、最高检关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》进一步细化相关规定,将获取信息数量、违法所得等情节要素、是否采取避开或突破计算机信息系统安全保护措施等行为要素进行规范。

由于爬虫工具快速收集信息的特性,一旦开始自动运行,很容易超过相关标准,造成“情节严重”的后果。并且近年来相关典型案例显示,司法实践中对于非法制造和使用爬虫工具的主要工作人员是否适格问题一般较为严厉,自然人的工作行为会因其被认定为执行工作职务而导致用人单位构成犯罪;例如近年来影响较大的武汉元光案、瑞智华胜案等,引发了社会对于非法获取数据承担刑事责任问题的关注。

3

关于数据爬取行为法律规范的发展

放眼国际法领域,域外法律规范对于我国网络数据爬取行为规制具有参考意义。典型代表为欧盟出台的《通用数据保护条例》(简称GDPR)。GDPR在欧盟整体的合作体系内,面向欧盟成员、或在成员国内设置经营机构的从业者、以及在欧盟成员国内进行经营的互联网从业者,对获取个人信息的许可条件、违反规定的惩罚措施进行了极为严格规定。对于在欧盟国家拓展市场的企业而言,GDPR规范也将成为技术实施中必须面对的问题。与此同时,除《民法典》及《反不正当竞争法》以外,我国也加快了具体针对网络安全及数据安全的专门法立法工作。

2017年6月1日开始实施的《中华人民共和国网络安全法》第二十七条规定,任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动;不得提供专门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具;明知他人从事危害网络安全的活动的,不得为其提供技术支持、广告推广、支付结算等帮助。

2019年5月28日,国家网信办公布的《数据安全管理办法(征求意见稿)》第十六条中做出如下规定:网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。其中三分之一、不影响正常运行等要素的规定,是在综合考虑经营者服务器承受能力、网络开放性等指标后得出的结果。虽然《办法》正在等待进入正式立法程序,但其规定的技术条款可以为量化现有技术边界提供参考。

2020年6月28日,《中华人民共和国数据安全法》(草案)在第十三届全国人大常委会第二十次会议审议。草案第三条规定:本法所称数据,是指任何以电子或者非电子形式对信息的记录。数据活动,是指数据的收集、存储、加工、使用、提供、交易、公开等行为。数据安全,是指通过采取必要措施,保障数据得到有效保护和合法利用,并持续处于安全状态的能力。上述规定通过法律的形式对“数据活动”进行法律定性。第二十九条规定,任何组织、个人收集数据,必须采取合法、正当的方式,不得窃取或者以其他非法方式获取数据。法律、行政法规对收集、使用数据的目的、范围有规定的,应当在法律、行政法规规定的目的和范围内收集、使用数据,不得超过必要的限度。

网络爬取行为典型案例评析

近年来,网络爬取行为导致的法律责任问题成为司法实务界关注的焦点,互联网不是“法外之地”,司法部门也在积极通过典型案例引导网络爬取行为的正确方向,列举几个典型案例以飨读者:

1

中文在线诉众智瑞德侵害作品信息网络传播权纠纷案

中文在线公司是二月河全球范围内中文作品的独家授权方。“听云中书城”安卓客户端系本案被告开发并运营,该软件从互联网检索门户网站新闻、书籍、音乐等资源,通过“TTS”技术(Text to Speech)将上述资源转化为音频,该软件可向用户同时提供免费的音频及文字内容。原告方作品《乾隆皇帝》可通过检索功能被检出并查看和收听。上述客户端未向下载使用该客户端的用户收取费用,系免费提供服务,但被告生产的盲人听书机产品可安装涉案客户端并获取其中资源,被告通过出售盲人听书机获得盈利。

在本案中,法院认为,众智瑞德公司自认其运营管理的“听云中书城”APP中涉案作品资源系从互联网爬取而来,且经过其技术处理后进行发布,其行为视为通过信息网络提供作品之行为。

法院还认为,被告不能适用“避风港”规则免除责任。本案被告搜集甄选互联网资源并进行TTS技术处理后发布于其运营的涉案客户端,属单独实施提供涉案作品的行为,而非网络服务提供行为,不在“避风港”规则的适用范围。

本案是可检索范围内的首个涉及TTS技术的民事侵权案例,具有代表性意义。法院在判决中明确被告从网络上爬取的作品的性质并对公众提供的行为侵犯了原告作品信息网络传播权,通过适用服务器标准进行判定,用户可以在选定的时间和地点获取存储在被告方服务器中的作品,因此构成侵害原告作品著作权中的信息网络传播权的要件。

与此同时,实时TTS技术处理后产生的文件如果稳定的存储在使用者的服务器中,并且能够被使用者独立地通过定位其文件位置获取到,便构成了对作品的复制,进而构成信息网络传播权的侵权行为要件。因此对TTS运行中源文件和生成文件的处理,需要TTS技术提供者更为谨慎地控制其使用范畴。

2

上海汉涛诉百度网讯不正当竞争案

上海汉涛公司为大众点评网的持有人,拥有大众点评网发表的任何形式的信息的著作财产权,并且大众点评网要求各搜索引擎遵循行业规范,即“拒绝Robots访问标准”,允许相关满足“Robots”标准的信息抓取。百度公司依照“Robots”框架协议下的标准对大众点评网的信息进行抓取,并将其展示在本公司产品百度地图的评价内容当中。根据抽样认定,百度地图使用大众点评商家评论信息的比例超过50%,平均每家商户使用28条。

在本案中,法院认为大众点评网上用户评论信息是汉涛公司付出大量资源所获取的,且具有很高的经济价值,这些信息是汉涛公司的劳动成果。百度公司未经汉涛公司的许可,在其百度地图和百度知道产品中进行大量使用,这种行为本质上属于“未经许可使用他人劳动成果”,违反诚实信用原则和公认的商业道德,构成不正当竞争行为。

本案件在数据采集和应用领域具有里程碑式的意义。百度公司的搜索引擎抓取涉案信息并不违反robots协议,但这并不意味着百度公司可以任意使用上述信息,百度公司应当本着诚实信用的原则和公认的商业道德,合理控制来源于其他网站信息的使用范围和方式。百度公司作为行业的领先者,一旦滥用技术工具对其他网站数据成果进行攫取,将不可避免的排挤竞争对手、破坏市场公平竞争的环境,也违背了《反不正当竞争法》的立法初衷。

随着时代的进步,必然会出现更多的新技术应用在市场中,本行业中通常遵守的技术规则也将受到商业规则甚至法律规则的规制。

3

奇虎科技诉百度网讯不正当竞争案

2012年8月以来,百度公司针对奇虎公司实施了阻断使用360搜索引擎的网络用户访问等不正当竞争行为。网络用户使用360搜索引擎进行关键词搜索,点击搜索结果栏中的百度内容链接时,访问被阻断,并被强行引导访问百度搜索首页。

法院认为,在2012年11月1日,由中国互联网协会牵头组织百度公司、奇虎公司等十二家企业作为发起人在北京共同签署的《自律公约》是对robots协议作为公认商业道德的承认,其本质就是将之前已经形成并被普遍遵守的行为秩序以合意的形式表示认可。从另一方面来说,奇虎公司360搜索引擎对百度内容相关网页抓取并提供的行为并不会替代网络用户对百度内容相关网页的访问,反而在一定程度上可以增加百度内容相关网页的访问量,因此这种抓取行为至少没有对百度公司的利益造成损害。因此,百度的阻断行为构成不正当竞争行为。

本案作为互联网头部企业的不正当竞争案件,因其波及用户范围广、持续时间长,曾引起较大的社会反响,具有代表性的意义。本案的时间分界点在于《自律公约》签署前后。在公约签署之前,百度公司采用白名单的形式拒绝奇虎公司的网络爬虫对己方数据进行爬取,奇虎公司采用绕过限制的方式爬取数据,也因此被判定侵权。但是在公约签署之后,百度公司实质上通过约定的形式,向同行业经营者和不特定公众用户让渡部分信息渠道的控制权利,并承诺将自身信息数据公平地向符合robots规范的爬取方公开,则百度公司必须负担将自身内容公开分享的义务。奇虎公司作为同行业经营者,同样有权力以数据爬虫的形式获得百度公司公开的数据,而不是被区别对待。

在司法实践中,一般认为互联网领域应当有比传统领域更高的开放性,互联网企业应当遵循促进数据交换、推动信息流动的商业原则。

应用网络爬取行为可能面临的法律风险与规避建议

从第三方数据获取、数据临时存储、数据处理等各环节均可能面临相关法律风险,具体说明如下:

1

第三方数据获取环节

第三方数据获取环节是唯一面向同行业竞争者的技术环节。本环节中,使用者会面临着技术不合规与著作权侵权的双重风险。

Robots协议已经在司法实践中被广泛接受,被认为是互联网领域的基石,属于应当共同遵守的商业规范。但是如果认为“在robots框架下的原始文本采集行为不会违法”将是大错特错的。需要注意的是,正在进入立法程序的《数据安全管理办法(征求意见稿)》中以专条的形式限制爬虫工具采集流量的相对比例。考虑某些技术使用场景的强时效性,可能在某一时间节点(如热点新闻快速传播时),对单一来源网页造成过重的负担,此后果是相关法规所不能允许的。从技术使用者的角度,应当对自动化工具的并发数量作出限制,不得突破法律法规和商业规范的要求。

对于本环节产生的过程风险,笔者建议通过严格数据采集规范,在robots框架下采集数据规避风险。对于主流目标网站,允许符合robots规则的采集行为可以收集到大部分用户所需信息,对于不能收集到的网页,则通过寻找替代信息源等方式处理。在实体风险方面,数据爬取技术针对的对象主要为网络服务提供商以及网络作品提供商在服务器中存储并发布的文字信息。对于时事新闻、时事性文章等,可以通过合理使用排除侵权风险。对于文字作品,需要严格界定用途,仅通过实时信息流转换文本信息,明示作者姓名和名称。

2

数据存储环节

经过爬虫取得的数据,使用者服务器中临时/或者长期存储,通过调用内部的算法处理存储的文本数据。数据的存储行为,尤其是著作权作品的存储行为,将涉及信息网络传播权的保护领域,需要使用者做出技术处理防范侵权风险。

“服务器标准”是我国司法实践中常用的侵权判定原则,具体为当需要判断某行为是否属于信息网络传播行为时,以数据是否实际存储于该网站服务器作为判定依据。缓存服务器是提供网络服务的必经一环,并且原始文件和算法处理过程中产生的临时文件都将在服务器中存储。针对信息网络传播行为问题,应当结合法律渊源分析。《著作权法》规定:信息网络传播权,即以有线或者无线方式向公众提供作品,使公众可以在其个人选定的时间和地点获得作品的权利。存储的临时数据并不对外界用户直接开放,也不存在外界用户可以访问服务器中数据的接口,故缓存行为不是著作权法规定的信息网络传播行为。

对于本环节产生的过程风险,笔者建议通过规范服务器工作流程防范风险。对于网络爬取的信息,技术人员可能通过数据重复使用减少采集的次数,从而降低服务器压力,同时提升用户体验。但是存储在服务器中的数据公开、多次提供给不同用户将可能构成复制及形成一定的经济价值、进而构成“使公众可以在其个人选定的时间和地点获得作品”的信网权侵权行为。因此在技术实践中,需要技术人员以更符合法律规范的方式完成数据缓存而非固定存储的过程,排除技术实施中的法律风险。

3

数据处理环节

著作权法意义中的使用包括但不限于复制、发行等行为,而数据处理过程中对第三方数据的使用五花八门,人工智能领域多用于机器学习中作为原始语料数据使用。在上海汉涛诉百度网讯不正当竞争案中,百度公司依照“Robots”协议对大众点评网的信息进行抓取,并将其展示在本公司产品百度地图的评价内容当中;根据抽样认定,百度地图使用大众点评商家评论信息的比例超过50%,平均每家商户使用28条;该行为虽然符合“Robots”协议,但本质上属于“未经许可使用他人劳动成果”,违反了诚实信用原则和公认的商业道德,因此数据处理环节需要着重规避不正当竞争风险。

总结

在风云变幻的国际形势下,中国高新技术企业,尤其是互联网大数据企业将面临更多的知识产权压力,而法律的滞后性会导致新产品、新技术难以纳入传统法律框架进行规制。实施创新驱动战略,构建发展新体制是的党中央在十四五规划中特别强调的发展路径。大数据及人工智能是产业升级、创造新的技术驱动力中不可或缺的一部分。落实在法律实践中,必然面临使用爬虫技术带来的技术风险和法律风险。作为法律工作者,一方面要防范新技术滥用破坏互联网生态环境,更重要的是进一步完善法律框架建设,推动新技术的法律保护在实践中落地。为保护高新技术企业正常发展,进而全面提升国家科技创新能力做出应有的贡献。