python获取html标签的内容

在Python爬虫中，经常需要爬取整个html文档，并解析特定标签中的内容Python在html解析有很多python模块的支持。

使用pip工具安装BeautifulSoup 模块，命令如下：
Python3以上使用：


       $ pip install BeautifulSoup4

python2.7 使用命令：


       $ pip install BeautifulSoup

导入BeautifulSoup 模块，代码如下：


       from bs4 import BeautifulSoup

创建一段html文档字符串，代码如下：

html_str= 
    <title></title>
 </head>
    <div class="nav">经验</div>
   </body>
</html>
使用BeautifulSoup 加载html 文档，代码如下：
bs_xml = BeautifulSoup(html_str)
print(bs_xml.prettify())  
解析标签内容，代码如下：
div =bs_xml.findAll('div',{'class':'nav'})
div[0].contents  
以上步骤所用全部代码如下：
from bs4 import BeautifulSoup
html_str=   
    <title></title>
 </head>
    <div class="nav">经验</div>
   </body>
</html>
bs_xml = BeautifulSoup(html_str)
print(bs_xml.prettify())
div =bs_xml.findAll('div',{'class':'nav'})
div[0].contents  
              tinyvampirepudge
          Android


     
      
       
        
         
         
         
          
          
           正则表达式匹配html标签，获取标签内容
          
         
        
        
         
          
           
            
             第一段是获取&#x3C;p>&#x3C;/p>标签内部的数据，第二个是获取&#x3C;p>&#x3C;span>&#x3C;/span>&#x3C;/p>标签中的数据，其中span标签中有style属性值。 使用过正则表达式的同学肯定知道，上面两种情况其实都是一种情况，我们要获…
            
           
          
          
           
            
             
              小猿圈002
          Python
             
            
           
          
         
         
          
           
           
           
            
            
             小猿圈Python入门之批量获取html内body内容的方法
            
           
          
          
           
            
             
              
               对于人工智能你了解有多少？你知道Python的使用吗？这个对于大部分初学者来说都是很难的，小猿圈Python讲师会每天为大家选择分享一个知识点，希望对你学习Python有所帮助，今天分享的就是批量获取html内body内容的方法。 现在有一批完整的关于介绍城市美食、景点等的ht…
              
             
            
            
             
              
               
                Python
          Brython
               
              
             
            
           
           
            
             
             
             
              
              
               brython | 获取input等标签的内容
              
             
            
            
             
              
               
                
                 通过上一篇的学习，我们初步掌握了使用brython向document插入HTML标签的方法，本章我们主要学习如何获取input标签的内容。
                
               
              
              
               
                
                 
                  bachelor98
                 
                
               
              
             
             
              
               
               
               
                
                
                 HTML的内容标签
                
               
              
              
               
                
                 
                  
                   HTML的内容标签主要有如下几种： 1. ol+li ol是有顺序的列表，li是列表中的一项，ol中只能有li。 效果如下： 2. ul+li 无序列表。 效果如下： 3. dl+dt+dd 列表+词
                  
                 
                
                
                 
                  
                   
                    JavaScript
                   
                  
                 
                
               
               
                
                 
                 
                 
                  
                  
                   js异步获取html内容插入并渲染
                  
                 
                
                
                 
                  
                   
                    
                     页面接受一个参数，id之类的，通过这个参数异步获取对应的html内容（完整的html，里面可能会含有 script标签，包括引用某些库，或者自己写在script标签里面的js代码），数据加载完成后渲染获取到的内容。
                    
                   
                  
                  
                   
                    
                     
                      JavaScript
                     
                    
                   
                  
                 
                 
                  
                   
                   
                   
                    
                    
                     正则匹配HTML标签及内容
                    
                   
                  
                  
                   
                    
                     
                      
                       正则匹配HTML标签及内容这里我匹配的是iframe标签及内容，若要匹配其他标签就替换就可以了；还可以匹配指定属性的html标签：匹配所有闭合标签匹配所有img标签匹配所有闭合标签即内容正则连续匹配写
                      
                     
                    
                    
                     
                      
                       
                        Seeyousoon
                       
                      
                     
                    
                   
                   
                    
                     
                     
                     
                      
                      
                       HTML内容标签
                      
                     
                    
                    
                     
                      
                       
                        
                         列表标签有顺序的列表ol+li：无顺序的列表ul+li：描述列表dl+dt+dd：pre元素表示预定义格式文本：code元素在默认情况下,它以浏览器的默认等宽字体显示：hr分隔线，表示段落级元素之间的
                        
                       
                      
                      
                       
                        
                         
                          BumBle
                         
                        
                       
                      
                     
                     
                      
                       
                       
                       
                        
                        
                         HTML章节标签和内容标签
                        
                       
                      
                      
                       
                        
                         
                          
                           HTML章节标签和内容标签 备注：如果对 HTML 的标签不熟悉，搜索时在最后加上 MDN 章节标签 标题 h1~h6 章节 section 文章 article 段落 p 头部 header 脚部
                          
                         
                        
                        
                         
                          
                           
                            Warolitbos
                           
                          
                         
                        
                       
                       
                        
                         
                         
                         
                          
                          
                           『Python』Selenium获取文本和标签属性的方法
                          
                         
                        
                        
                         
                          
                           
                            
                             Seleunim 获取文本和标签属性的方法 相关名称说明： driver: 是之前定义的打开浏览器的 “变量名称” .text: 是获取该标签位置的文本 .get_attribute(value).：
                            
                           
                          
                          
                           
                            
                             
                             
                            
                           
                          
                         
                         
                          
                           
                           
                           
                            
                            
                             HTML标签的内容和样式的分离
                            
                           
                          
                          
                           
                            
                             
                              
                               MDN有HTML的所有元素，并把所有所有元素都分好了类。 以前标签里又写内容又写样式(style)，问题1：内容、样式不分离，问题2：重复代码很多。如下一行所示： 标签的属性里既有样式属性，也有别的属性。那么可以写一个样式标签，里面用选择器把样式框起来。如下：现在部分所示。 引…