httpclient请求返回403

    技术2022-07-10  135

    使用httpclient访问网络url做爬虫时,出现403的情况:

    查了查403的几种可能性:

    403 禁止访问:访问被拒绝  403.1 禁止访问:执行访问被拒绝  403.2 禁止访问:读取访问被拒绝  403.3 禁止访问:写入访问被拒绝  403.4 禁止访问:需要使用 SSL 查看该资源  403.5 禁止访问:需要使用 SSL 128 查看该资源  403.6 禁止访问:客户端的 IP 地址被拒绝  403.7 禁止访问:需要 SSL 客户端证书  403.8 禁止访问:客户端的 DNS 名称被拒绝  403.9 禁止访问:太多客户端试图连接到 Web 服务器  403.10 禁止访问:Web 服务器配置为拒绝执行访问  403.11 禁止访问:密码已更改  403.12 禁止访问:服务器证书映射器拒绝了客户端证书访问  403.13 禁止访问:客户端证书已在 Web 服务器上吊销  403.14 禁止访问:在 Web 服务器上已拒绝目录列表  403.15 禁止访问:Web 服务器已超过客户端访问许可证限制  403.16 禁止访问:客户端证书格式错误或未被 Web 服务器信任  403.17 禁止访问:客户端证书已经到期或者尚未生效  403.18 禁止访问:无法在当前应用程序池中执行请求的URL  403.19 禁止访问:无法在该应用程序池中为客户端执行CGI  403.20 禁止访问:Passport 登录失败

    通过一系列操作,排除法将问题锁定在Http头字段的问题上。使用HttpWatch 检测浏览器的头字段设置,发现User-Agent字段可能存在问题。

    打印源生的的User-Agent字段是null,尝试设置UA字段,看下IE浏览器User-Agent的格式:

     

    "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:0.9.4)"

     

    httpGet.addHeader("User-Agent",“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:0.9.4)”);

     

     

    可以正常访问了。

    关于403,还存在另外一种可能,Referer 字段,某些网站做了盗链的限制,仅限于本网站链接导入的网址才可以访问,这时我们可以设置Referer字段:

     

    httpGet.addHeader("Referer","http://xxx");

     

    http://xxx就是要爬取的网址的url,图片和文件防止盗链的限制多一些,也可以在下载图片或其他类型文件的请求中添加Referer头字段,问题就解决啦。

     

    Processed: 0.011, SQL: 9