bs4应用小技巧2_hellocsz的博客

相关文章推荐

坏坏的眼镜 · 【Unity】2D ...· 1 月前 ·

勤奋的番茄 · ViewPager2 怎么修改翻页时间 - ...· 1 月前 ·

爱听歌的跑步鞋 · 关闭Python数据库连接· 1 年前 ·

玩命的拖把 · Android学习之请求外部存储sd卡读写权 ...· 1 年前 ·

奋斗的荔枝 · mysql对执行结果进行html格式的输出? ...· 1 年前 ·

这里用两种获取方式
.string 和 get_text()
.string 用来获取标签的内容
get_text() 用来获取标签中所有字符串包括子标签的。

#find_all()的返回值类型

< class ' bs4 . element . ResultSet '>

#select()的返回值类型

< class ' list '>

在取值时我们要注意一点就是在获取标签的时候获取的是单个标签还是标签列表。
也就是find()和find_all(),select()和select_one()的区别。

问题:滥用遍历文档树的方法

常见的方法有:

contents
descendants
parent
next_sibling 寻找兄弟节点
next_siblings 所有的兄弟节点
next_element

这些方法都会遍历文档树中的所有节点, 包括文本节点. 也就是说: 只要你使用这些方法, 你就一定会选择出许多文本节点, 因为文本节点无处不在: 换行, 空格等.

解决方法: 使用过滤器find等方法:

soup.find(name='tagname')
 当我们一旦在过滤器中指定了name关键字, 那么返回的结果就一定是tag对象, 因为文档节点没有name属性. 
 结论: 大多数情况下, 你需要的是find 这一类过滤器, 而不是遍历所有节点. 
                    这里用两种获取方式 .string 和 get_text() .string 用来获取标签的内容 get_text() 用来获取标签中所有字符串包括子标签的。#find_all()的返回值类型&amp;lt;class 'bs4.element.ResultSet'&amp;gt;#select()的返回值类型&amp;lt;class 'list'&amp;gt;在取值时我们要注意一点就是在获取标签的时候获取的是单个标签还是标...
				  首先我们查看一下request库的返回值类型，这样就知道BeautifulSoup构造方法需要什么类型的参数了：
  我们发现，request库的返回值类型是String，也就是说，我们可以先把bs4.element.ResultSet类型转换为String，之后再用BeautifulSoup构造方法将String类型转换为BeautifulSoup,这样就可以继续用find_All()方法，代码如下：
  getHtmlText方法代码如下：...
随着网站的种类增多，去寻找最适合解决这个网站的技术。
正则表达式有的时候不太好写，容易出错；
xpath 记住一些语法：//*[@id=“content”]/div[2]/div/div/p[2]/span
bs4的特点：只需要记住一些方法就可以了。
二、bs4源码分析（github下载源码）
源码当中有一些小图标：
c ：Cl
				1：beautifulsoup模块作用是为了完成爬虫工作中的解析数据和提取数据
2：我们平时用浏览器上网，浏览器会把服务器返回的html源代码翻译为我们能看动的样子，之后我们才能在网页上做各种操作，爬虫工作也是一样，要使用能读懂html的工具，才能提取想要的数据
3：beautifulsoup如何解析数据：
这里面的解析器，python由一个内置的库：html.parser(他不是唯一的解析器）
解析代码结构为：
在第6行代码中，第一个参数必须是字符串，到这里，我们就完成了数据解析，且把解析到的数据转换成
	支持Python标准库中的HTML解析器
	还支持一些第三方的解析器lxml,使用的是Xpath语法，推荐安装。
BeautifulSoup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式.
find_all()  | find()
.text | get_text()
string|strings|.stripped_strings
				1.<class 'bs4.element.ResultSet'>这里是字典外套了一个列表textPid = pid[0]
2.<class 'bs4.element.Tag'> print(textPid.get_text())
转载于:https://www.cnblogs.com/hixiaowei/p/9734695.html...
				beautifulsoup4是Python数据包中专门用于数据解析的数据包，它能够匹配网页原码中的标签页，从而从网页中获得我们想要的数据，本章节我们来讲述bs4的一些简单的使用，以及如何使用bs4爬取网页上的小说。
一.find方法的使用
#首先我们打开一个text.html文档，打开的模式为只读模式，其编码为utf-8
fp=open('./text.html','r',encoding='utf-8')
#使用我们的BeautifulSoup函数将我们的文本进行处理。
    soup=Beaut
				很抱歉，由于我是一个语言模型，无法直接对当前页面进行分析。但是，我可以告诉你如何使用bs4来对网页进行分析。
首先，你需要安装BeautifulSoup库。你可以使用以下命令来安装它：
!pip install beautifulsoup4
安装完成后，你需要将网页内容加载到BeautifulSoup对象中。你可以使用requests库来获取网页内容。以下是一个简单的示例代码：
```python
import requests
from bs4 import BeautifulSoup
url = "https://www.example.com"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
在这个例子中，我们使用requests库获取了一个名为“https://www.example.com”的网页，并将其内容加载到BeautifulSoup对象中。你可以将这个URL替换成你要分析的网页URL。
现在，你可以使用BeautifulSoup对象来提取网页中的信息。以下是一些常见的操作：
- 查找标签：可以使用find()或find_all()方法来查找网页中的标签。例如，要查找所有的<div>标签，你可以使用以下代码：
  ```python
  div_tags = soup.find_all("div")
- 获取标签属性：可以使用标签的get()方法来获取标签属性。例如，要获取第一个<a>标签的href属性，你可以使用以下代码：
  ```python
  a_tag = soup.find("a")
  href = a_tag.get("href")
- 获取标签内容：可以使用标签的text属性来获取标签的文本内容。例如，要获取第一个<h1>标签的文本内容，你可以使用以下代码：
  ```python
  h1_tag = soup.find("h1")
  text = h1_tag.text
这只是BeautifulSoup库的一些基本用法，如果你想更深入地了解如何使用BeautifulSoup来分析网页，可以参考官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/