在Python爬虫中,经常需要爬取整个html文档, 并解析特定标签中的内容Python在html解析有很多python模块的支持。
Python3以上 使用:
$ pip install BeautifulSoup4
python2.7 使用命令:
$ pip install BeautifulSoup
from bs4 import BeautifulSoup
html_str=
<title></title>
</head>
<div class="nav">经验</div>
</body>
</html>
使用BeautifulSoup 加载html 文档,代码如下:
bs_xml = BeautifulSoup(html_str)
print(bs_xml.prettify())
解析标签内容,代码如下:
div =bs_xml.findAll('div',{'class':'nav'})
div[0].contents
以上步骤所用全部代码如下:
from bs4 import BeautifulSoup
html_str=
<title></title>
</head>
<div class="nav">经验</div>
</body>
</html>
bs_xml = BeautifulSoup(html_str)
print(bs_xml.prettify())
div =bs_xml.findAll('div',{'class':'nav'})
div[0].contents
tinyvampirepudge
Android
HTML的内容标签主要有如下几种: 1. ol+li ol是有顺序的列表,li是列表中的一项,ol中只能有li。 效果如下: 2. ul+li 无序列表。 效果如下: 3. dl+dt+dd 列表+词
-
JavaScript