python 读取HTML博客内容为文本或者makdown_python 读取html文本内容_MZP_man的博客

相关文章推荐

刚分手的茶壶 · jquery ...· 1 月前 ·

发呆的人字拖 · jsp如何把java后端传的html字符串转 ...· 1 月前 ·

挂过科的排球 · Jsoup，一款超好用的HTML文本解析Ja ...· 1 月前 ·

纯真的包子 · 利用 HTML 模板自定义用户界面 - ...· 1 月前 ·

粗眉毛的沙滩裤 · 如何用Python和深度神经网络发现即将流失 ...· 9 月前 ·

逆袭的拖把 · AI 代码生成工具 Cursor ...· 1 年前 ·

销魂的可乐 · windows下使用repo和gitlab的 ...· 1 年前 ·

温柔的汽水 · input输入框限制只能输入数字的方法实例( ...· 1 年前 ·

淡定的地瓜 · 利用python将excel数据导入mySQ ...· 1 年前 ·

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple html2text
2、模块说明
 官方文档： https://pypi.org/project/html2text/ 
一、 基础用法：
 获取text文本 
import html2text as ht
text_maker = ht.HTML2Text()
path = r"C:/Users/dcg/Desktop/html/1.html"
html_file = open(path, 'r', encoding='utf8')
html_page = html_file.read()
html_file.close()
text = text_maker.handle(html_page)
print(text)
二、还可以加上一些选项
 1， 先看有哪些选项
  

 2、
 保存为makdown格式的文本 
# coding=gbk
import html2text as ht
import re
text_maker = ht.HTML2Text()
# 属性设置
text_maker.ignore_links = True
text_maker.bypass_tables = False
path = r"C:/Users/dcg/Desktop/html/1.html"
html_file = open(path, 'r', encoding='utf8')
html_page = html_file.read()
html_file.close()
text = text_maker.handle(html_page)
a = re.sub(r'\* \d+', '', text)
file = open("1.md", "w", encoding='utf8')
file.write(a)
file.close()
运行结果：
 
                                    夹以及子目录、子目录里面的 ，获取到该目录下所有的【.html】文件后，返回一个list对象
2、遍历完成后得到一个html文件列表对象，将该列表交给html_to_txt方法，html_to_txt方法
里面循环逐个读取html文件中指定标签中标签中标签中的文字，和中指定标签
里面标签的文字提取出来
3、读取到的文本内容输出到txt文件中，这里可以加上一个替换replac
                                    前言个人我的博客是Hexo+Next搭建的，风格我很喜欢，也不打算更换。最近可能电脑很差使了，两次重装系统，每次都要从新搭建博客，搭建速度也很快，可是依然有个困扰个人问题，那就是电脑卡死的时候有些博客没有备份，只有上传到Github生成的html文档。今天发现个有趣的python库，能够将html转换回markdown,试验了一下效果还不错。html代码下面先上代码：python#Author:S...
file_names = os.listdir(file_path)
i = 1
with open(os.path.join(file_path, file_names[i]), 'r', encoding='utf-8') as f:
    txt = f.read()
得到结果如下：
'\ufeff<html&g
                                    前言我的个人博客是Hexo+Next搭建的，风格我很喜欢，也不打算更换。最近可能电脑不好使了，两次重装系统，每次都要重新搭建博客，搭建速度也很快，但是依然有个困扰我的问题，那就是电脑卡死的时候有些博客没有备份，只有上传到Github生成的html文档。今天发现个有趣的python库，可以将html转换回markdown,试验了一下效果还不错。代码下面先上代码：#Author:Sun Yan#Fun...
                                    在解决自然语言处理问题时，有时你需要获得大量的文本集。互联网是文本的最大来源，但是从任意HTML页面提取文本是一项艰巨而痛苦的任务。
假设我们需要从各种网页中提取全文，并且要剥离所有HTML标记。通常，默认解决方案是使用BeautifulSoup软件包中的get_text方法，该方法内部使用lxml。这是一个经过充分测试的解决方案，但是在处理成千上万个HTML文档时可能会非常慢。
通过用selectolax替换BeautifulSoup，您几乎可以免费获得5-30倍的加速！
这是一个简单的基准测试，可分析.
text_maker = ht.HTML2Text()
text_maker.bypass_tables = False
htmlfile = requests.get(npurl)#npurl 为网址
htmlfile.encoding = 'gb...