有的时候用爬虫爬一个网页下来发现是乱码,上网站f12一看:
<meta http
-equiv
="Content-Type" content
="text/html" charset
="utf-8">
没错呀,是utf-8,然而爬下来,乱码惨不忍睹: 这时候很有可能是网站开启了gzip压缩,只要在option里加上这一项:
var options
= {
gzip
: true,
}
就可以顺利爬取下来了: 而gzip是什么呢? gzip最初是用在UNIX系统的文件压缩,其中.gz文件就是gzip格式压缩文件。 现在基于HTTP协议上的gzip编码往往用于压缩网页文本,虽然增加服务器的负载,但是可以将纯文本内容可压缩到原大小的40%,这样可以减轻带宽压力,加快客户端网页载入。