金杜知卓|数据之争：网络爬虫涉及的法律问题（二）

2018-12-29 18:55:43

本文中，笔者拟针对Robots协议的法律属性、效果及写法进行深入探讨，并结合历史及最新的司法案例，为网站运营方如何在现有的法律框架下更好地保护自己的数据提出建议。

——Robots协议

作者|瞿淼杜承彦谭晓明金杜律师事务所

（本文系知产力获得独家首发的稿件，转载须征得作者本人同意，并在显要位置注明文章来源。）

（本文4730字，阅读约需9分钟）

近年来，企业之间由于数据爬取而引发的关于数据权利的争议层出不穷。网络爬虫技术也逐渐从仅作为搜索引擎的工具而越来越广泛地应用于各个行业，甚至成为互联网公司数据竞争的标配必备装备。笔者曾经在今年早些时候发表的《数据之争：网络爬虫涉及的法律问题（一）》中着重分析了关于网络爬虫的一些基本知识以及使用爬虫技术主要涉及的法律风险，其中提到违反网站的Robots协议的风险。那么是否所有违反Robots协议的行为都会导致法律责任呢？本文中，笔者拟针对Robots协议的法律属性、效果及写法进行深入探讨，并结合历史及最新的司法案例，为网站运营方如何在现有的法律框架下更好地保护自己的数据提出建议。

一、 Robots协议的起源、语法及功能

Robots协议全称Robots Exclusion Protocol，也称为爬虫协议，机器人协议。Robots协议诞生于1994年2月，由荷兰软件工程师Martijn Koster创建，据称起因是Koster的服务器遭受到了不良爬虫的爬取而致使服务堵塞。不久该协议即成为了现存及未来的网络爬虫都被期望遵守的行业惯例。爬虫可以在网站的根目录下（例如：www.AAA.com/robots.txt）中看到其内容。网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

然而Robots协议虽广受遵守，但其未经任何标准组织备案、也不属于任何商业组织。因此，Robots协议是非强制性的，并非所有爬虫均会遵守该标准。早期Robots协议是主要为网站运营者及搜索引擎公司的技术人员之间达成共识的一个机制，用于平衡搜索引擎与网站之间的关系。

Robots协议有其简单易懂的语法。例如，User-Agent用于规定搜索引擎机器人的名称；可以编写多条，表明希望排除多个网络爬虫，也可以声明排除所有爬虫。Allow用于规定允许爬取哪些页面；Disallow用于规定不允许爬取哪些网页或位置。Crawl-dalay：用于描述希望爬虫访问行为的时间间隔，Bing搜索引擎爬虫支持此项拓展，并将时间间隔的时间窗口定位1秒到30秒，在此窗口内Bing爬虫仅会进行一次访问。通过这些技术人员共同认可的语法，网站运营者可以具体规定不允许某个具体机器人爬取自己网站的信息（例如，淘宝网就曾经通过Robots协议阻止百度的搜索引擎爬取自己的数据），也可以明确规定哪些信息不允许爬取，甚至规定爬虫访问的具体动作。

一个典型的Robots协议可能为如下样子：

图片1.png

值得注意的是，Robots协议虽然是技术人员之间构思产生的协议，但其却不具有任何强制禁止访问的技术能力。换句话说，其是一个典型的“君子协议”，其本身并不会对机器人产生任何技术阻碍。如果机器人不愿意遵守该协议，从技术上仍然可以爬取那些Robots协议规定不允许爬取的内容。

二、不遵守Robots协议，一定会产生法律责任吗？

简单的答案是：不一定。主要的原因是因为Robots协议目前在法律上尚未被认可为具有法律约束力的“协议”。而目前案例中认为违反Robots协议而构成违法的情况，基本都是基于反不正当竞争法的原则。因而，在认定违法的过程中还需要考虑是否存在应被法律保护的法益、被诉一方的主观状态、是否构成损害后果等多种因素。

1. Robots协议不构成具有法律效力的协议

国内判决中对Robots协议的法律性质作为较为完整论述的见于百度公司Vs.奇虎360案（案号：（2013）一中民初字第2668号）。该案件始于2012年8月奇虎公司推出了搜索引擎服务。百度公司Robots协议不允许360爬虫抓取百度网页内容，而后百度公司发现奇虎公司未遵守其Robots协议，抓取了百度网站内容并作为搜索结果提供给用户。2012年11月在互联网协会牵头下，双方作为共同发起人之一，签署《互联网搜索引擎服务自律公约》。

在该案件判决中，法院就Robots协议的属性进行了讨论，并做出如下认定：Robots协议是技术规范，并非法律意义上的协议；Robots协议系网站服务商或所有者在自行编写，属于单方宣示；无论他人爬虫是否遵守，Robots协议不是强制禁止访问的技术措施；Robots协议已经成为了一种国内外互联网行业内普遍通行、普遍遵守的技术规范；《自律公约》并非法院可以直接参照适用的法律法规或规章，但其反映和体现了行业内的公认商业道德和行为标准，法院对于《自律公约》所体现出的精神予以充分考虑。

基于以上认定，法院在判决中做出如下认定：“在被告推出搜索引擎伊始，其网站亦刊载了Robots协议的内容和设置方法，说明包括被告在内的整个互联网行业对于Robots协议都是认可和遵守的。其应当被认定为行业内的通行规则，应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德。被告网站在推出搜索引擎服务之初，为了对原告网站进行抓取以便向网络用户提供最全面的搜索结果，没有遵守行业内公认的、应当被遵守的商业道德，即在被告推出搜索引擎的伊始阶段没有遵守原告网站的Robots协议，其行为明显不当，应当承担相应的不利后果。”

以上可见，目前我国司法尚未承认Robots协议单独能够成为具有法律约束力的合同。而仅仅是将其作为业内普遍遵守的“公认的商业道德”。

2. Robots协议往往是网站运营方获得保护的必要条件

在另一起更早的网站与搜索引擎之间的纠纷，即浙江泛亚电子商务有限公司与北京百度网讯科技有限公司之前的著作权纠纷（2006）一中民初字第6273号案中，法官从另一个角度诠释了Robots协议的法律涵义。

泛亚公司于2003年创办了中国网网站，并在网站内提供三首歌曲MP3文件的付费下载服务。同时，泛亚公司已举证证明其是该三首歌曲的著作权人。百度公司通过搜索链接的技术，在百度音乐网站页面上将上述三首歌曲文件的绝对地址开放给用户并提供上述歌曲MP3文件的免费下载服务。同时，百度公司通过连接方式为用户提供其他网站上该三首歌曲MP3文件的免费下载服务。

泛亚公司认为，百度公司在未经原告许可的情况下，利用技术优势，通过信息网络将泛亚公司MP3歌曲文件的绝对地址向公众公开，下载传播泛亚公司的作品，侵犯泛亚公司的合法权益，给泛亚公司造成重大损失。而百度公司认为，原告没有设置Robots协议。根据互联网公认的规则，除非网站所有者在网站页面中加注拒绝蜘蛛协议，或采取禁止收录的技术手段，否则网站会被搜索引擎视为开放区域自动访问并被抓取收录。

最终法院认定如果被链接网站没有建立禁链的协议，对搜索引擎服务系统而言，意味着对该网站可以互联互通、信息共享。因此，被告提供搜索引擎服务并没有侵犯原告著作权的主观故意和过失。在原告不能证明被告的行为系明知或应知的情况下，将上载作品和下载作品的行为可能产生的侵权责任，由没有识别和判断能力的搜索引擎服务商承担，缺乏法律依据。因而最终驳回了原告泛亚公司的诉讼请求。

在美国的另一起类似案件Blake A. Field诉谷歌公司的案件中，美国的法院也采取了类似的立场。认为如果Field没有在自己的网站上明确向谷歌的爬虫标明哪些内容不希望被抓取，则不应认定谷歌公司侵犯了其著作权。

综上，Robots协议更加类似网站运营方所采取的声明。其存在及内容可以有效地进行爬取一方的主观状态（是否具有恶意）。对于保护网站的数据信息免受爬取，是必要而不充分的保护措施。

三、如何最佳设置Robots协议

在上述我们提到的案件中，以网站运营者与搜索引擎之间的纠纷为主。而在最近几年，随着大数据产业的蓬勃发展，爬虫程序更加广泛地运用于各个行业。甚至出现了专门针对竞争对手网站进行数据爬取的定向爬取工具。在这些情形下，之前针对搜索引擎公司这样并不与网站经营者之间直接发生竞争的公司而形成的司法判例和原则，则可能需要进一步进行重新审视，并且不一定适用于所有的案件。例如，搜索引擎所常常提出的无主观故意等抗辩，在竞争对手之间直接爬取信息的案件中就难以成立。

此外，虽然Robots协议尚未被确认为具有法律意义上的合同。但我们仍然发现有不少网站正在试图让其具有法律协议的性质。例如，下图是我们所收集到的某网站的Robots协议：

# Notice: The use of robots or other automated means to access AAA without

# the express permission of AAA is strictly prohibited.

# See https://www.AAA.com/user-agreement.

# AAA may, in its discretion, permit certain automated access to certain LinkedIn pages,

# for the limited purpose of including content in approved publicly available search engines.

# If you would like to apply for permission to crawl AAA, please email whitelist-crawl@AAA.com.

# Any and all permitted crawling of AAA is subject to AAA's Crawling Terms and Conditions.

# See http://www.AAA.com/legal/crawling-terms.

与此同时，网站的User-Agreement中有如下规定：

“您同意您将不会开发、支持或使用软件、脚本、程序或其他任何方法或过程（包括爬虫、浏览器插件和附加组件或其他任何技术）进行“服务”数据采集或复制“服务”中的用户信息等其他信息；….”

可以看出，网站运营者在Robots协议中放入了自然语言以及相关的法律条文。并将该协议与其网站的使用协议进行了关联。从而将原本由计算机语言表达的涵义通过法律语言及法律协议的形式进行了表达。如此一来，原本在Robots协议中所体现的网站一方的意愿，就能够通过合同的形式具有了法律涵义。我们认为这是一种值得借鉴的实践和做法。

四、其它技术保护措施的必要性

如前所述，Robots协议虽然能够具有一定的法律意义，但其并不具有技术上的强制作用。因此，与Robots协议相配套的技术反爬措施也是至关重要的。最新的案例表明，在采取了实际技术保护措施的情况下，如果数据仍然被爬取和利用，则网站运营方除了主张对方不正当竞争，以及构成对网站使用合同的违约，甚至还有可能追求其刑事责任。

在今年深圳市法院所审理的的谷米公司诉元光公司及五名自然人的案件中，法院就判定非法破解他人计算机系统，并使用爬虫获得该等系统中的数据的行为构成了非法获取计算机信息系统数据罪（深圳市南山区人民法院153号刑事判决书），以及构成民事上的不正当竞争（深圳市中级人民法院（2017）粤03民初第822号判决）。

该案中，谷米公司开发并运营了一款名为“酷米客”的实时公交APP，该款APP提供公交车的线路查询及实时定位等服务，其后台服务器通过原告与公交公司的合作积累了大量数据，具有定位精度高、实时误差小的优势。元光公司系同类APP的发布者和经营者。被告公司为提高自身APP服务的准确度，组织人员通过技术手段破解了“酷米客”客户端的加密算法，并通过爬虫程序模拟“酷米客”客户端向原告服务器发送请求，爬取其中的实时数据。最终几位自然人被认定构成刑事犯罪，判处有期徒刑一年四个月至三年不等；元光公司被认定构成不正当竞争。

此外，在今年北京市海淀区人民法院审理的针对上海晟品网络科技有限公司及张XX,侯XX的案件（（2017）京0108刑初2384号）中，法院也认定，被告人在数据抓取过程中破解北京字节跳动网络技术有限公司的防抓取措施，使用伪造的device_id绕过服务器身份校验，使用伪造UA及IP绕过服务器的访问频率限制，将字节跳动公司服务器上存储的视频数据进行抓取并储存，构成了非法获取计算机信息系统数据罪。相关自然人被判处有期图形9个月至1年不等。

此外，值得注意的是，针对某些数据，采取必要的技术保护措施对于网站运营者来说义务而非权利。例如，网站对于存储于己方网站的他人个人信息、保密信息，可能负有法定或约定的保护义务。

五、数据爬取追责的主要难点及证据问题

在实际发生的案件中，针对爬虫追究法律责任的主要难点在于确认身份及固定证据。在网络环境中，由于使用的是爬虫程序，在辨识爬虫系有哪个主体所操纵控制存在技术难度。尤其如果爬虫一方在技术上采取相应的伪装措施，例如通过代理服务器、伪造IP地址等手段进行操作。

尽管如此，网站运营方仍有可能通过一些蛛丝马迹间接证明到数据爬取方的不当行为。如果是在刑事案件中，可以由警方采用侦查手段予以调查。而在民事案件中，也有可能通过高度盖然性原则构筑起符合逻辑的优势证据，达到证明的目的。例如，前不久所爆出的马蜂窝数据造假新闻中，相关人士即是通过对数据本身的分析来进行支持其观点。在万得资讯与同花顺公司之间的争议中，也是万得也声称能够通过数据中所隐藏的“指纹信息”来支持其指控。

此外，网站运营方保存齐备完善的后台日志记录也是至关重要的原始证据材料。

六、建议

综上，对于被网络爬虫爬取信息的企业，从保护自身权益的角度来说，笔者建议建立完善的Robots协议，并配套用户使用协议，使得网站的意图能够通过法律文件的形式得以宣示；对于不希望公开的内容，不仅需要设置Robots协议、网站使用协议，还应当设置实质性反爬虫技术措施；可以考虑设置数据地雷（或数据指纹）等，使得其能够在今后希望采取法律行动的过程中较为容易地针对对方从事过数据爬取等行为进行证明。

该文观点仅代表作者本人，知产力平台仅提供信息存储空间服务。

金杜知卓|数据之争： 网络爬虫涉及的法律问题（二）

下一篇

金杜知卓|数据之争：网络爬虫涉及的法律问题（二）