file_names = os.listdir(file_path)
i = 1
with open(os.path.join(file_path, file_names[i]), 'r', encoding='utf-8') as f:
txt = f.read()
得到结果如下:
'\ufeff<html><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><title>地址识别试题</title></head><body><div><h1>深度|翼装飞行是玩命?拒绝冒险,专业比赛都要“看天吃饭”</h1><h3>翼装飞行其实最早是从高空跳伞运动中产生的,一些爱好者希望实现人类自由飞翔而开始穿着翼装,然后才逐渐出现低空翼装飞行这样更加刺激的飞行形式。”根据方泽体育的介绍,翼装飞行之所以危险性高,主要源于两个原因:一是飞行速度快;二是起跳方式和飞行环境的特殊。</h3><h2>极限运动,反而最不能冒风险</h2><h3>值得一提的是,对于高空翼装跳伞,全球有相关的培训中心和机构认证,经过培训合格的人才可以拿到证书。而低空翼装飞行没有被大范围推广,并不存在相关的资格认证,那么作为赛事方,如何来评定参赛者的准入资格呢?相关人员告诉记者,低空翼装飞行这样的超极限运动非常小众,全球人数也不过600人左右,国内更是只有寥寥数人,有鉴于此,世界翼装飞行联盟会举办一个预选赛来决定参赛人选。“预选赛每年6月份在挪威举行,是从海边悬崖上定点起跳,但整体难度略低,相对安全。裁判都是翼装飞行领域最具权威的飞行员,通过比赛对于选手的飞行速度、技术能力和飞行过程中的姿态控制有一个全面直观的判断,优胜者才有资格参加世锦赛。”</h3><h3>作为业内人,因掌握的具体信息有限,李良东无法对女飞行员遇难细节多加评价,他就自己更加了解的低空翼装飞行进行了分析。此间,他回忆了2011年底一次事故,事故地位于广州越秀区中山四路228-自编113号,当时就是由于微风吹偏了定位的气球导致飞行太过贴近悬崖,飞行员的腿打在了岩石上,但这位经验老到的选手还是在千钧一发之际下意识完成了开伞,保住了性命。</h3><h4 style="float:right">广州晚报实习生:李四报道</h4></div></body></html>'
除了正文还包含HTML代码格式,故需要进一步处理(使用第三方库html2text)
from html2text import html2text
html2text(txt)
处理后结果如下:
'\ufeff\n\n# 深度|翼装飞行是玩命?拒绝冒险,专业比赛都要“看天吃饭”\n\n###\n翼装飞行其实最早是从高空跳伞运动中产生的,一些爱好者希望实现人类自由飞翔而开始穿着翼装,然后才逐渐出现低空翼装飞行这样更加刺激的飞行形式。”根据方泽体育的介绍,翼装飞行之所以危险性高,主要源于两个原因:一是飞行速度快;二是起跳方式和飞行环境的特殊。\n\n## 极限运动,反而最不能冒风险\n\n###\n值得一提的是,对于高空翼装跳伞,全球有相关的培训中心和机构认证,经过培训合格的人才可以拿到证书。而低空翼装飞行没有被大范围推广,并不存在相关的资格认证,那么作为赛事方,如何来评定参赛者的准入资格呢?相关人员告诉记者,低空翼装飞行这样的超极限运动非常小众,全球人数也不过600人左右,国内更是只有寥寥数人,有鉴于此,世界翼装飞行联盟会举办一个预选赛来决定参赛人选。“预选赛每年6月份在挪威举行,是从海边悬崖上定点起跳,但整体难度略低,相对安全。裁判都是翼装飞行领域最具权威的飞行员,通过比赛对于选手的飞行速度、技术能力和飞行过程中的姿态控制有一个全面直观的判断,优胜者才有资格参加世锦赛。”\n\n###\n作为业内人,因掌握的具体信息有限,李良东无法对女飞行员遇难细节多加评价,他就自己更加了解的低空翼装飞行进行了分析。此间,他回忆了2011年底一次事故,事故地位于广州越秀区中山四路228-自编113号,当时就是由于微风吹偏了定位的气球导致飞行太过贴近悬崖,飞行员的腿打在了岩石上,但这位经验老到的选手还是在千钧一发之际下意识完成了开伞,保住了性命。\n\n#### 广州晚报实习生:李四报道\n\n'
接下来就可以按照文本进行分析了。
遇到像下面的数据,里面是获取到的一些新闻资讯,但是不是以文本保存的,而是HTML。想要直接读取HTMLimport osfile_path = './data'file_names = os.listdir(file_path)i = 1with open(os.path.join(file_path, file_names[i]), 'r', encoding='utf-8') as f: txt = f.read()得到结果如下:'\ufeff<html&g
import requests
res = requests.get('https://www.jb51.net/更换成你的网页.
html
')
res.encoding = 'utf-8'
print(res.text)
运行结果:
到此这篇关于
python
如何查看网页代码的文
https://blog.csdn.net/ak739105231/article/details/88074557
在
python
:
html
简介中,
读取
html
文件,下面就写一个服务器,实现:简单的
读取
并发送;
首先,先一个
html
文件:
<!DOCTYPE
html
>
<
html
lang="en">
<meta char...
VSCode 1.18.1
摘要本文是练手Demo,主要是使用 Beautiful Soup 来爬取网页数据。Beautiful Soup 介绍
Beautiful Soup提供一些简单的、
python
式的用来处理导航、搜索、修改分析树等功能。
Beautiful Soup 官方
1、通过
python
将
读取
遍历
html
文件夹中的文件、文件夹以及子目录,指定只获取里面的【.
html
】文件
2、得到一个
html
文件列表后逐个
读取
html
文件中指定标签中的文字提取出来
3、
读取
到的文本内容输出到txt文件中
url = "https://www.baidu.com/"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (K
HTML
, like Gecko) Chrome/89.0.4389.128 Safari/537.36",
使用
Python
读取
HTML
文件中的内容并输出,可以使用
Python
中的标准库——BeautifulSoup库来实现。以下是
读取
HTML
文件并输出内容的代码片段:
```
python
from bs4 import BeautifulSoup
with open('file.
html
', 'r', encoding='utf-8') as file:
html
= file.read()
soup = BeautifulSoup(
html
, '
html
.parser')
print(soup.get_text())
其中,第一行导入了BeautifulSoup库;第三行打开
HTML
文件并
读取
内容;第五行是用BeautifulSoup库将
HTML
内容解析成一棵树形结构,方便对其进行操作;第六行是输出整个
HTML
文件中的文本内容。