DOM解析HTML

    技术2022-07-11  138

    #DOM解析 from lxml import etree #定义一段待解析的HTML片段 text = ''' <div> <ul> <li>第一项</li> <li class="item2">第二项</li> <li name="item3"> <div>第三项</div> </li> <li id="item4"> <a href="http://baidu.com">第四项</a> </li> <li class="item5"> <li><a id="name1" href="http://baidu.com">第五项</a>第五项</li> </li> </ul> </div> ''' html = etree.HTML(text) #如果需要转码,则通过tostring(文本,编码) # res = etree.tostring(html,encoding='utf-8') # print(type(html)) # print(type(res)) # print(res.decode("utf-8"))#转回 #xpath解析 #通过解析表达式 res = html.xpath("//li//a/text()") print(res[0]) # <标签名 属性:href/src/name/class="属性值" 事件名="事件执行方法">元素:文本,子标签</标签名> # ?支持字符串类型 # nodename:节点选择器 # // 子孙节点选择器 # / 子节点选择器 # * 通配符 # @ 属性选择器 # text()
    Processed: 0.012, SQL: 9