2010年12月30日6时38分,百度贴吧上一位名为“爱wu痕”网友发布了一条信息:看看这里面360都搜集了什么啊?这条信息后面附上了一个360存储收集用户信息的下载地址。
“上述公开链接被谷歌搜索爬虫抓取后,进入谷歌网页库,被网友搜索到,大公开。”陈明表示,他也在第一时间按照上述链接网址下载了相关的数据。
此后,更多的专业人士加入了下载、分析的行列,甚至他们在安全论坛“kafan”讨论此事。很快,360员工发现了服务器信息泄露的事实,随后在当天10时30分左右关闭了upload.360safe.com/url_files/目录浏览权限,12时30分左右移除了此文件目录。
360服务器记录的内容,为何会被谷歌抓取泄露?这可能是众多人看到这些被泄露在外的信息时的最大疑问。
“当时,360在第一时间对外表示,其服务器外泄用户隐私的真相,是360一台服务器遭黑客攻击,导致少量数据外泄,被谷歌搜索引擎抓取。”但在陈明看来,“此次360服务器用户隐私的数据泄密更有可能的原因是目录权限没配置好,而不是遭遇黑客攻击。黑客攻击获取到用户隐私数据后应该是直接使用以谋利,怎么会通过贴吧论坛的方式无偿对外公开呢?”
据《每日经济新闻》记者了解,根据搜索引擎爬虫(一种自动获取网页内容的程序)原理,那些未被公开网址的目录或文件,网络访问者(包括网民和搜索引擎爬虫)是无法浏览或抓取的,而一旦网址被公开,搜索引擎爬虫再次光临该网站时,就能顺藤摸瓜地抓取到那些目录或文件。
这正是360服务器隐私数据链接被张贴在百度贴吧后很快被谷歌搜索引擎爬虫抓取、并被网民搜索到的原因,否则那些隐私数据即使出现权限控制问题,也是一个信息“孤岛”,爬虫照样触不可及。
独立调查员进一步指出,360已经建立了一套“孤岛”信息收集机制,其抓取的部分信息会直接在360搜索引擎上展现,而更多更隐私的内容或许会永远躺在360服务器中,直到被挖掘利用、或被泄露。
一个可以借鉴的真实故事是:去年9月,百度工程师针对360搜索展开的“鬼节捉鬼”实验已经证明:只要使用360浏览器访问“孤岛”页面,360服务器很快就能抓取这些页面内容,并完全在360搜索中展现出来。
随后一个月,百度某高管在一次面向全国100家媒体开放日的非正式会议上,现场演示了一个360搜索引擎抓取手机用户支付结果页面的截图。这些页面与支付宝付款结果页面类似,上面也有用户姓名、手机号等敏感信息。根据360搜索页面结果(见图片1),“http://buy.360.cn/umpay/cot/app-proxy.html?od=MjAwMDEyMzIxNzM3LDQ1LDlMzNiNGQ1NjJjYTljY2RlZTAxOThiZDYxMzZjNDY2&op=sh”这么复杂的链接,爬虫是如何发现的?它的出处在哪里?为何搜索结果的数量有39万之多?为什么直接点击无法访问?360此举动引发了相关政府部门的介入。
(出于人身安全考虑,本稿件署名均为化名)观点 360被指侵门踏户 逾越安全边界
此前360方面曾公开对外表示,安全软件上传网址监测是行业惯例,带有用户名和密码的网址记录是由网站登录机制造成的,并非安全软件有意上传。
而独立调查员认为,这是360为自己侵犯用户隐私的行为所找的借口。在他看来,所谓云安全只是辅助机制,安全软件应尽可能排除可信的主流网站 (所有网银、政府网站,以及主流门户、新闻门户、社交门户、搜索门户等),而不是收集并上传所有网址;且在上传网址时,应排除网址中的访问请求参数等个人信息(网址中问号后接的全部子串)。另外,360即便要上传网址,也没有必要将其长期保留在其私有服务器内。安全厂商在验证其上传的网址、确认是安全网址后,即应在做必要统计后废弃,更没理由与用户机器唯一识别码成对地存储在服务器上。否则,这款软件究竟是安全软件还是间谍软件?是为了用户还是为了监视用户?他认为有充分理由对这些问题打一个很大的问号。