爬虫期末考试笔记(填空题)

    技术2025-06-18  12

    User-Agent表示用户代理,是HTTP协议中的一个字段URL地址由协议头, 服务器地址, 文件路径三部分组成搜索引擎是通用爬虫最重要的应用领域

    ** 协议头指定使用的传输协议 ** 服务器地址指存放资源的服务器的主机名或者IP地址,其目的在于标识互联网上的唯一一台计算机,并通过这个地址找到这台计算机 ** 端口**是在地址和冒号后面的数字,用于表示一台计算机上运行的不同程序 ** IP地址用来给Internet上的每一台计算机编号

    路径是由0个或者多个" / "符号隔开的字符串Accept-Encoding:指出浏览器可以接受的编码方式Accept-Charset:指出浏览器可以接受的字符编码Content-Type:指定POST请求中用来表示的内容类型若想修改/添加Request对象中的headers可以使用add_header()方法urllib.request中的ProxyHandler()方法可以设置代理服务器

    URLErroer产生的原因主要由以下几种:

    没有连接网络服务器连接失败找不到指定的服务器 HTTPError是URLError的子类 响应码无法处理的请求内容就会抛出这个异常 Request类的对象表示一个请求,一旦请求发送完毕,该请求包含的内容就被释放掉Session类的对象不会马上被释放掉Response类用于动态地响应客户端发送的请求XML和JSON是结构化数据[u4e00-u9fa5]匹配中文Xpath即为XML路径语言,通过"/"进行分隔谓语都写在[]中JSON是一种轻量级的数据交换格式JSONPath是一种信息抽取类库,用于从JSON文档中抽取指定信息序列化(encoding):将一个Python对象编码转换为JSON字符串的过程反序列化(decoding):将JSON字符串编码转换成Python对象的过程MySQL是一种开源的关系型数据库,使用最常用的数据库管理语言(SQL)进行数据库管理MongoDB是一个基于分布式文件存储的数据库,属于当前NoSQL数据库中比较热门的一种

    数据库表示一个集合的物理容器 集合就是一组文档,类似于关系数据库中的表 文档是一组由键/值对组成的对象,对应着关系型数据库的行

    MySQL的基本组成单元是表, MongoDB的基本组成单元是集合
    Processed: 0.016, SQL: 9