每当我们使用HTTP代理请求网站失败时,总会认为是HTTP代理出现故障,但检查之后又发现,代理完全正常。这种情况就有可能是我们所访问网站的防护策略被触发了,导致爬虫程序无法访问。那么,平时HTTP代理使用过程中会遇到哪些常见网站防护策略呢?

  不同的网站有着不同的防护策略,以下几点算是比较常见的。

  1、cookies认证策略

  很多网站在访问的时候,都需要进行cookie认证,一旦访问之后,没能及时提供认证cookie,就会被网站拒绝访问,或者定向跳转到其他页面。所以,当遇到这种情况的时候,可以试着带上cookies认证访问。

  2、访问频率策略

  网站服务器的资源是有限的,不仅仅是流量带宽,每天所能承受的PV也是有限的,因此为了防止一些恶意访问行为的发生,很多网站都会对访问频率进行限制,如果你设计的爬虫程序在访问页面的频率上有任何与真人相违背的情况出现,就会立即触发访问频率策略。

  3、user-agent

  user-agent是用户代理,是指用户使用什么工具访问网站的,如果是浏览器访问,会有浏览器访问的标识,如果是python访问,会有python访问的标识。如果是程序代码请求,我们就要带上浏览器的user-agent,因为人类浏览网页都是用浏览器来访问网页的。

  4、其他

  还有一些其他防护策略,例如图片加防盗链,也就是发送请求需要带referer才能成功,诸如此类的策略有很多,都需要我们去学习去研究。

  HTTP代理使用过程中会遇到的常见网站防护策略就这些了,作为程序员,在工作中遇到各种问题都要热情对待,冷静处置,更多的还是需要经常学习,提升自我。

 

原文地址:http://www.cnblogs.com/huakexiaopeng/p/16831730.html

1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长! 2. 分享目的仅供大家学习和交流,请务用于商业用途! 3. 如果你也有好源码或者教程,可以到用户中心发布,分享有积分奖励和额外收入! 4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解! 5. 如有链接无法下载、失效或广告,请联系管理员处理! 6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需! 7. 如遇到加密压缩包,默认解压密码为"gltf",如遇到无法解压的请联系管理员! 8. 因为资源和程序源码均为可复制品,所以不支持任何理由的退款兑现,请斟酌后支付下载 声明:如果标题没有注明"已测试"或者"测试可用"等字样的资源源码均未经过站长测试.特别注意没有标注的源码不保证任何可用性