网络爬虫合法性案例 -- 抓取客户手机号!
之前我写过关于网络爬虫合法性的简单介绍,传送门: http://www.rrdaj.com/hzseo/3263.html,今天看到一篇关于采集用户手机信息的案例性文章,觉得还不错,整理过来让大家看看:
一、淘宝、京东等多家网站数据被爬取
2019年7月底,新京报记者卧底“鹰眼智客”发现,其实际上是利用爬虫技术,从淘宝、京东等网站上爬取到店家手机号后,用于营销。此外,借助该软件,通过微信附近的人,用户可任意设定虚拟位置后批量申请好友,还能“站街”钓鱼营销。
记者发现一家名为“鹰眼智客”的大数据公司号称“中国互联网营销服务第一品牌”。其官网宣称:“有你所需要的一切”。据官网介绍,“鹰眼智客”归属于郑州共赢科技有限公司。
7月29日,新京报记者来到该公司面试地点——郑州市金水区金城国际广场A座,通过面试得到试岗资格,主要工作是推销一台包含“鹰眼智客大数据营销系统”的电脑。在约一百平方米的房间里,充斥着啪啪啪敲击键盘的声音。房间内的三十多名业务员共同组成了共赢科技的“商务部”。
据其官网显示,“鹰眼智客”系统涵盖QQ营销系列、微信营销系列、综合采集系列、论坛贴吧系列、邮件营销系列五大模块,拥有218个小功能。此外,其还宣传称“已成功为2800多家企业提供互联网营销服务,覆盖120多个行业”。其中综合采集系列号称可精准采集目标客户信息,覆盖全网11大B2B平台,4大搜索引擎,7大地图,准确率达90%。
记者试岗期间任务是熟悉软件流程,并得到主管发的一份“终端客户聊天话术”。“终端客户聊天话术”显示,其数据来源于各大行业网站、各大平台以及各大地图等,“像阿里、百度、腾讯等等只要在网上公开留过痕迹的这些信息通过我们的核心技术SPILDER多线程技术都可以给你采集到。”
据极验产品总监程柏(化名)介绍,其核心技术实际上是网络爬虫技术。据其介绍,目前互联网流行的网络爬虫种类比较多,信息采集类的网络爬虫主要是脚本和模拟器类爬虫。
记者发现,“鹰眼智客精准营销系统”共包含数据采集系列、QQ营销系列、社群论坛营销、综合营销工具五个模块,覆盖了客户数据采集到营销的整条产业链。
其中,数据采集系列模块包含地图行业采集、综合数据采集、阿里巴巴采集、慧聪网采集、单页名录综合采集、大众点评网采集、淘宝商家信息采集、中国制造网采集、团购外卖商家采集、阿里国际站采集、八方资源平台采集、京东商家采集十二个功能。
记者测试发现,该套软件操作十分简单,每个功能还附有相应的教学视频来指导。7月30日,通过该软件,记者成功获取大量手机号。
以淘宝商家信息采集为例,记者在该系统中的淘宝商家采集功能中输入关键词“服装”后,成功采集到北京地区淘宝卖家的82条信息,共耗时10分钟。在软件弹出框右下角还附有“导出电话铺”的按钮,采集得到的信息包括类型(店铺等级)、掌柜名称、地区、电话、店址等多个维度。
此外,记者还对该系统的京东商家采集、地图行业采集、阿里国际站采集等功能依次进行测试,均获成功。
二、合法爬虫 or 恶意爬虫
恶意爬虫涉非法获取计算机信息系统数据罪
“这肯定是合规的,因为我们不直接参与贩卖数据。”该公司负责人事的李梦海告诉新京报记者说,“如果卖爬取到的数据就违法了。”该公司的业务员王伟(化名)则给出了不同的答案。王伟向新京报记者直言了自己的担忧。“外呼机器人是违规的,之前曾被曝光过。”王伟说。
“爬虫技术的本质用途仍然存在,像百度、谷歌之类的公司,但是互联网上面的其他黑产眼里只有利益,他们通过网络爬虫做二次数据封装和用户引流,通过数据贩卖和流量牵引牟利。从用户视角来说,危害主要有恶意营销、网络攻击(网络钓鱼);从网站角度来说,危害包括网络攻击、薅羊毛、影响正常的企业服务、信息价值流失、用户流失。”程柏说。
中消协此前发布的《APP个人信息泄露情况调查报告》显示,约86.5%的受访者曾受到推销电话或短信的骚扰,约75.0%的受访者接到诈骗电话,约63.4%的受访者收到垃圾邮件,排名位居前三位。
对于此类爬虫软件,多数网站早已声明严厉禁止。北京炜衡律师事务所周浩律师认为,“网络爬虫爬取数据需要遵守第三方平台的Robots协议以及获取数据的性质具有公开性,不得包含个人信息数据、商业秘密及国家秘密等信息数据。如果突破、绕开第三方平台的反爬虫策略、协议时,或涉嫌非法获取计算机信息系统数据罪、提供侵入非法控制计算机信息系统程序工具罪。”
Robots协议也称为爬虫协议、机器人协议等,其全称为“网络爬虫排除标准(RobotsExclusionProtocol)”。“网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。对于搜索引擎来说是行业通用的爬取约定协议,但对恶意爬虫来说并没有任何约束力。”知道创宇技术总监邓金城告诉新京报记者说。
据腾讯发布的《2018上半年安全专题系列研究报告》(以下简称报告)显示,恶意爬虫通过分析并自行构造参数对非公开接口进行数据爬取或提交,获取对方本不愿意被大量获取的数据。报告指出,据统计,出行、社交、电商占恶意爬虫流量目标行业分布前三位,占比分别为20.87%、18.40%、13.38%。
周浩表示,《网络安全法》《个人信息安全规范》都强调了,通信联系方式(电话号码)是重要的个人信息,非经同意不得收集。提供用来收集个人信息的工具,一旦被使用必然存在违规。
三、国内相关法律的出台:
有安全专家表示,当用户发生上网行为时会发送数据包,内含行为痕迹、手机号等信息。一旦涉及某一方发生泄露,通过抓取这个数据包便可以解析出来用户的敏感信息。网络爬虫则分为合法爬虫和恶意爬虫两种。一些所谓的大数据公司本身没有数据来源,而是通过爬虫手段获取他人的数据。
2019年5月份,国家互联网信息办公室发布的《数据安全管理办法》征求意见稿第十五条也规定了,“网络运营者以经营为目的收集重要数据或个人敏感信息的,应向所在地网信部门备案。”此外,大多数网站早已对恶意爬虫构建反爬措施并作出声明严厉禁止,有律师直言,“突破、绕开第三方平台的反爬虫策略、协议时,或涉嫌非法获取计算机信息系统数据罪、提供侵入非法控制计算机信息系统程序工具罪。”