pip install -i https://pypi.tuna.tsinghua.edu.cn/simple html2text
2、模块说明
官方文档: https://pypi.org/project/html2text/
一、 基础用法:
获取text文本
import html2text as ht
text_maker = ht.HTML2Text()
path = r"C:/Users/dcg/Desktop/html/1.html"
html_file = open(path, 'r', encoding='utf8')
html_page = html_file.read()
html_file.close()
text = text_maker.handle(html_page)
print(text)
二、还可以加上一些选项
1, 先看有哪些选项
2、
保存为makdown格式的文本
# coding=gbk
import html2text as ht
import re
text_maker = ht.HTML2Text()
# 属性设置
text_maker.ignore_links = True
text_maker.bypass_tables = False
path = r"C:/Users/dcg/Desktop/html/1.html"
html_file = open(path, 'r', encoding='utf8')
html_page = html_file.read()
html_file.close()
text = text_maker.handle(html_page)
a = re.sub(r'\* \d+', '', text)
file = open("1.md", "w", encoding='utf8')
file.write(a)
file.close()
运行结果:
夹以及子目录、子目录里面的 ,获取到该目录下所有的【.html】文件后,返回一个list对象
2、遍历完成后得到一个html文件列表对象,将该列表交给html_to_txt方法,html_to_txt方法
里面循环逐个读取html文件中指定标签中标签中标签中的文字,和中指定标签
里面标签的文字提取出来
3、读取到的文本内容输出到txt文件中,这里可以加上一个替换replac
前言个人我的博客是Hexo+Next搭建的,风格我很喜欢,也不打算更换。最近可能电脑很差使了,两次重装系统,每次都要从新搭建博客,搭建速度也很快,可是依然有个困扰个人问题,那就是电脑卡死的时候有些博客没有备份,只有上传到Github生成的html文档。今天发现个有趣的python库,能够将html转换回markdown,试验了一下效果还不错。html代码下面先上代码:python#Author:S...
file_names = os.listdir(file_path)
i = 1
with open(os.path.join(file_path, file_names[i]), 'r', encoding='utf-8') as f:
txt = f.read()
得到结果如下:
'\ufeff<html&g
前言我的个人博客是Hexo+Next搭建的,风格我很喜欢,也不打算更换。最近可能电脑不好使了,两次重装系统,每次都要重新搭建博客,搭建速度也很快,但是依然有个困扰我的问题,那就是电脑卡死的时候有些博客没有备份,只有上传到Github生成的html文档。今天发现个有趣的python库,可以将html转换回markdown,试验了一下效果还不错。代码下面先上代码:#Author:Sun Yan#Fun...
在解决自然语言处理问题时,有时你需要获得大量的文本集。互联网是文本的最大来源,但是从任意HTML页面提取文本是一项艰巨而痛苦的任务。
假设我们需要从各种网页中提取全文,并且要剥离所有HTML标记。通常,默认解决方案是使用BeautifulSoup软件包中的get_text方法,该方法内部使用lxml。这是一个经过充分测试的解决方案,但是在处理成千上万个HTML文档时可能会非常慢。
通过用selectolax替换BeautifulSoup,您几乎可以免费获得5-30倍的加速!
这是一个简单的基准测试,可分析.
text_maker = ht.HTML2Text()
text_maker.bypass_tables = False
htmlfile = requests.get(npurl)#npurl 为网址
htmlfile.encoding = 'gb...