python获取html标签的内容

在Python爬虫中,经常需要爬取整个html文档, 并解析特定标签中的内容Python在html解析有很多python模块的支持。

  • 使用pip工具安装BeautifulSoup 模块,命令如下:
    Python3以上 使用:
    $ pip install BeautifulSoup4 python2.7 使用命令:
    $ pip install BeautifulSoup
  • 导入BeautifulSoup 模块,代码如下:
    from bs4 import BeautifulSoup
  • 创建一段html文档字符串,代码如下:
  • html_str= 
        <title></title>
     </head>
        <div class="nav">经验</div>
       </body>
    </html>
    
  • 使用BeautifulSoup 加载html 文档,代码如下:
  • bs_xml = BeautifulSoup(html_str)
    print(bs_xml.prettify())  
    
  • 解析标签内容,代码如下:
  • div =bs_xml.findAll('div',{'class':'nav'})
    div[0].contents  
    

    以上步骤所用全部代码如下:

    from bs4 import BeautifulSoup
    html_str=   
        <title></title>
     </head>
        <div class="nav">经验</div>
       </body>
    </html>
    bs_xml = BeautifulSoup(html_str)
    print(bs_xml.prettify())
    div =bs_xml.findAll('div',{'class':'nav'})
    div[0].contents  
                  tinyvampirepudge
              Android