使用httpclient访问网络url做爬虫时,出现403的情况:
查了查403的几种可能性:
403 禁止访问:访问被拒绝 403.1 禁止访问:执行访问被拒绝 403.2 禁止访问:读取访问被拒绝 403.3 禁止访问:写入访问被拒绝 403.4 禁止访问:需要使用 SSL 查看该资源 403.5 禁止访问:需要使用 SSL 128 查看该资源 403.6 禁止访问:客户端的 IP 地址被拒绝 403.7 禁止访问:需要 SSL 客户端证书 403.8 禁止访问:客户端的 DNS 名称被拒绝 403.9 禁止访问:太多客户端试图连接到 Web 服务器 403.10 禁止访问:Web 服务器配置为拒绝执行访问 403.11 禁止访问:密码已更改 403.12 禁止访问:服务器证书映射器拒绝了客户端证书访问 403.13 禁止访问:客户端证书已在 Web 服务器上吊销 403.14 禁止访问:在 Web 服务器上已拒绝目录列表 403.15 禁止访问:Web 服务器已超过客户端访问许可证限制 403.16 禁止访问:客户端证书格式错误或未被 Web 服务器信任 403.17 禁止访问:客户端证书已经到期或者尚未生效 403.18 禁止访问:无法在当前应用程序池中执行请求的URL 403.19 禁止访问:无法在该应用程序池中为客户端执行CGI 403.20 禁止访问:Passport 登录失败通过一系列操作,排除法将问题锁定在Http头字段的问题上。使用HttpWatch 检测浏览器的头字段设置,发现User-Agent字段可能存在问题。
打印源生的的User-Agent字段是null,尝试设置UA字段,看下IE浏览器User-Agent的格式:
"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:0.9.4)"
httpGet.addHeader("User-Agent",“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:0.9.4)”);
可以正常访问了。
关于403,还存在另外一种可能,Referer 字段,某些网站做了盗链的限制,仅限于本网站链接导入的网址才可以访问,这时我们可以设置Referer字段:
httpGet.addHeader("Referer","http://xxx");
http://xxx就是要爬取的网址的url,图片和文件防止盗链的限制多一些,也可以在下载图片或其他类型文件的请求中添加Referer头字段,问题就解决啦。