爬虫笔记:编码格式正确,却出现乱码:gzip

    技术2023-05-10  72

    有的时候用爬虫爬一个网页下来发现是乱码,上网站f12一看:

    <meta http-equiv="Content-Type" content="text/html" charset="utf-8">

    没错呀,是utf-8,然而爬下来,乱码惨不忍睹: 这时候很有可能是网站开启了gzip压缩,只要在option里加上这一项:

    var options = { gzip: true, // ...其他 }

    就可以顺利爬取下来了: 而gzip是什么呢? gzip最初是用在UNIX系统的文件压缩,其中.gz文件就是gzip格式压缩文件。 现在基于HTTP协议上的gzip编码往往用于压缩网页文本,虽然增加服务器的负载,但是可以将纯文本内容可压缩到原大小的40%,这样可以减轻带宽压力,加快客户端网页载入。

    Processed: 0.021, SQL: 9