因为资源文件很多,所以百度网盘检测非法信息其实是有一套流程的。当然,这个流程和方法会随着监管需求变化而不断调整。
上传文件到百度网盘首先对文件进行MD5(哈希码)判断,因为一个文件所有的copy都是同一个独一无二哈希码,所以只要这个文件以前被屏蔽了,库里有哈希码记录了,新上传的也会自动被屏蔽。检测哈希值还有个好处,就是如果网盘中已经有哈希值(内容)一样的文件了,就不需要再上传一次了,这就是我们说的秒传。(PS:更改文件名并不会改变文件哈希值)
接下来, 百度网盘只检测进行分享的文件内容。 如果一个文件上传后没有分享(包括和这个文件相同哈希值的副本也没人分享)百度网盘会把这个文件定义为私人文件,是不进行绿化扫描的。这意味着,你自己手机拍摄的小视频,只要你不开放分享,即使里面有不雅成份也是不会被屏蔽的。
然后对分享的内容进行AI预审,AI根据关键字及图像视频识别判断文件内容是否合规,并把文件根据合规度进行一个评分。超过一定分数的直接屏蔽。一些比较暧昧的会进入到人工审核流程。人工审核还有个作用是给AI做训练,这里就不展开了。但需要了解的是,人工审核是针对内容本身,因为一个分享内容不一定只有一个副本,人工审核人员也并不关心(也查看不了)是谁上传的文件。因为需要处理的信息太多,我估计人工审核的占比会相当小。
被屏蔽的文件会被记录哈希值,整个网盘上其实同样哈希值的文件只存储一份(不算冗余),所以只要这个文件被屏蔽了,和这个文件哈希值一样的文件也会被同时屏蔽。
分享的压缩文件其实不扫描的,但是使用在线解压了就会把解压结果也排入扫描进程,如果解压后的文件也有违规内容,这个RAR也会被屏蔽。
当然,百度网盘也有投诉渠道,如果你认为在百度网盘上传播的某些文件对你或你所在组织造成侵权,也可以投诉的方式要求屏蔽。
综上,在检测违规操作的环节,百度网盘并没有违法和侵犯隐私。其他网盘的处理流程也大同小异。