常见反爬虫方案

1.君子协议robots.txt

2. IP层

IP报文带有的最重要的信息就是IP请求的来源地址，来源地址极难（TCP不可能,UDP可以）伪造的特性，使得这个字段成为反爬虫策略中最重要的字段。封杀IP/IP段是网站可以执行的最严厉的惩罚。由于国内的ISP大量的使用了NAT技术，导致大量用户共用IP的情况越来越多，内容提供方在做IP封杀时会越来越谨慎，因为这样做会导致极高的误杀率，以至影响正常用户的网站访问。如果使用4G，共用同一个IP的用户会更多。但是即使如此，源IP也是反爬虫策略中最为核心的数据，反爬策略的执行动作一般都要围绕源IP进行。

3. HTTP层

X-Forwarded-For

X-Forwarded-For（XFF）是用来识别通过HTTP代理或负载均衡方式连接到Web服务器的客户端最原始的IP地址的HTTP请求头字段。 Squid 缓存代理服务器的开发人员最早引入了这一HTTP头字段，并由IETF在HTTP头字段标准化草案中正式提出。XFF头由普通HTTP代理服务器添加，在用户通过普通HTTP代理访问网站时，用户的IP地址会被添加到这个头中。后端开发人员往往会把这个的IP地址当做用户的真实IP地址使用，很容易被爬虫利用。

Referer

Referer是浏览器在页面跳转时带入的HTTP头，指示用户上一个页面的URL，一般来说，网站90%以上的流量应该带有Referer头，在一些常见的反爬策略中，大量的不带Referer头的源IP请求会触发"要求输入验证码"策略。

常见反爬虫方案

常见反爬虫方案

1.君子协议robots.txt

2. IP层

3. HTTP层

X-Forwarded-For

Referer

User-Agent

4. 应用层/浏览器层