html2
text
html2
text是一个
Python脚本,可将
HTML页面
转换为清晰易读的纯ASCII文本。 更好的是,ASCII也恰好是有效的
Markdown(文本到
HTML格式)。
用法:
html2
text [filename [encoding]]
--version
显示程序的版本号并退出
-h , --help
显示此帮助消息并退出
--ignore-links
不要包含任何链接格式
--escape-all
转义所有特殊字符。 输出的可读性较差,但可以避免出现特例格式问题。
--reference-links
使用参考链接而不是链接来创建降价促销
--mark-code
用[code] ... [/ code]标记预格式化和代码块
有关选项的完整列表,请参阅
或者您可以在
Python使用它:
>>> import
html2
text
>>> print(
html2
text.
html2
text("<p><strong>Zed's</strong> dead baby,
Zed's dead.</p>"))
html2text
用 Go 编写的 html 到文本转换器。 这个库将从源代码中剥离 html 标签并对文本执行清理。 这包括正确添加新行和从链接附加到 url 之类的事情。
去 github.com/sgoertzen/html2text
import " github.com/sgoertzen/html2text "
func main () {
t := html2text.Textify( " <div>hello</div> " )
log.Println(t) // Outputs " hello "
有关更多使用示例,请参阅包含的 html2text_test.go 文件。
如果您遇到无法正常工作的 html,请打开特定 html 和所需文本的问题。
Python之html与markdown互相转换前言1. html2text2. html2markdown3. pandoc4. 批处理
Typora可以很容易的将md导出为html,我一直都有想法就是将html还原为markdown,于是在网上整理了几种方法,以便后期使用。
如果你只是转换单个文件,推荐直接在线转换:Link Link Link
1. html2text
pip install html2text
转换代码:
import html2text
md_text = open('r
在之前找了很多的库把html转换为markdown的格式,有些库效果并不是非常的好,后面使用了html2text,效果有点提升。
html2text的原理是使用HTMLParser 对html的标签逐一的进行解析,并根据各个标签还原为markdown的格式。
html2text 安装
html2text 的地址在:
http://www.aaronsw.com/2002/html2text/
它是一个网页格式工具,能够在线把网站转换为markdown的格式,下载里面的html2text.py,放到自己的
h =
html2
text.
HTML2
Text()
h.ignore_links = True
date = etree.tostring(date[0], encoding='utf-8', pretty_print=False, method='
html')
date = date.decode('utf-8')
date = h.handle(date).strip()
markdown_
text = "## This is a header\n\nThis is some **bold**
text."
html =
markdown.
markdown(
markdown_
text)
print(
html)
2. 使用Javascript的Marked库:
```javascript
var
markdownText = "## This is a header\n\nThis is some **bold**
text.";
var
html = marked(
markdownText);
console.log(
html);
3. 在网页中使用marked.js:
```
html
<!DOCTYPE
html>
<title>
Markdown to
HTML</title>
<script src="https://cdn.jsdelivr.net/npm/marked/marked.min.js"></script>
</head>
<div id="
markdown-content"></div>
<script>
var
markdownText = "## This is a header\n\nThis is some **bold**
text.";
var
html = marked(
markdownText);
document.getElementById('
markdown-content').inner
HTML =
html;
</script>
</body>
</
html>
以上代码均可以将
Markdown文本
转换为
HTML,具体使用哪种方法取决于你的项目需要和使用的
语言。