[889]python处理HTML转义字符_周小董的博客

什么是转义字符

在 HTML 中 < 、 > 、 & 等字符有特殊含义（<，> 用于标签中，& 用于转义），他们不能在 HTML 代码中直接使用，如果要在网页中显示这些符号，就需要使用 HTML 的转义字符串（Escape Sequence），例如 < 的转义字符是 < ，浏览器渲染 HTML 页面时，会自动把转移字符串换成真实字符。

转义字符（Escape Sequence）由三部分组成：第一部分是一个 & 符号，第二部分是实体（Entity）名字，第三部分是一个分号。比如，要显示小于号（<），就可以写 < 。

Python 反转义字符串

用 Python 来处理转义字符串有多种方式，而且 py2 和 py3 中处理方式不一样，在 python2 中，反转义串的模块是 HTMLParser 。

# python2
import HTMLParser
>>> HTMLParser().unescape('a=1&amp;b=2')
'a=1&b=2'
Python3 把 HTMLParser 模块迁移到 html.parser 
# python3
>>> from html.parser import HTMLParser
>>> HTMLParser().unescape('a=1&amp;b=2')
'a=1&b=2'
到 python3.4 之后的版本，在 html 模块新增了unescape和escape方法。 
# python3.4
>>> import html
>>> html.unescape('a=1&amp;b=2')
'a=1&b=2'
>>> html.escape('a=1&b=2')
'a=1&amp;b=2'
推荐最后一种写法，因为 HTMLParser.unescape 方法在 Python3.4 就已经被废弃掉不推荐使用，意味着之后的版本有可能会被彻底移除。 
另外，sax 模块也有支持反转义的函数 
>>> from xml.sax.saxutils import unescape,escape
>>> unescape('a=1&amp;b=2')
'a=1&b=2'
>>> escape('a=1&b=2')
'a=1&amp;b=2'
汇总6种方法转换
 
# -*- coding: utf-8 -*-
text = '&lt;abc&gt;'
text2 = '<abc>'
from bs4 import BeautifulSoup
print('----------------------bs4转义为正常字符----------------------------------')
soup = BeautifulSoup(text, features="html.parser")
print(soup.text)# <abc>
from lxml import etree
print('----------------------lxml转义为正常字符----------------------------------')
html=etree.HTML(text)
# 使用xpath获取content中的所有字符串
print(html.xpath("string(.)"))# <abc>
from html.parser import HTMLParser
print('----------------------html.parser转义为正常字符----------------------------------')
html_parser = HTMLParser()
text3 = html_parser.unescape(text)
print(text3)# <abc>
import html
print('----------------------html方法转义为正常字符----------------------------------')
text3=html.unescape(text)
print(text3) # <abc>
print('----------------------html方法转义为html字符----------------------------------')
text4=html.escape(text2)
print(text4) # &lt;abc&gt;
from xml.sax.saxutils import unescape,escape
print('----------------------xml.sax.saxutils转义为正常字符------------------------')
text3=unescape(text)
print(text3)# <abc>
print('----------------------xml.sax.saxutils转义为html字符------------------------')
text4=escape(text2)
print(text4) # &lt;abc&gt;
import cgi
print('----------------------cgi转义为html字符----------------------------------')
text3 = cgi.escape(text2)
print(text3)# &lt;abc&gt;
参考：https://www.cnblogs.com/xuxn/archive/2011/08/12/parse-html-escape-characters-in-python.html
 https://blog.csdn.net/zhusongziye/article/details/78786519
 https://www.cnblogs.com/du-jun/p/10345067.html
                    抓网页数据经常遇到例如&gt;或者&nbsp;这种HTML转义符什么是转义字符在 HTML 中&nbsp;&lt;、&gt;、&amp;&nbsp;等字符有特殊含义（&lt;，&gt; 用于标签中，&amp; 用于转义），他们不能在 HTML 代码中直接使用，如果要在网页中显示这些符号，就需要使用 HTML 的转义字符串（Escape Sequence），例如&nbsp;&lt;&nbsp;的转义字符是&nbsp;&amp;lt;，浏览器渲染 HTML 页面时，会自动把转移字符串换成真实字符。转义字符
				您可以使用 Python 的 open 函数读取本地 HTML 文件，并使用 read 方法将其读取为字符串。接下来，您可以使用 replace 方法将其中的换行字符替换为空格，最后将其转换为一行字符串。
以下是一个示例代码：
with open("file.html", "r") as f:
    html_content = f.read()
    one_line_string = ht...
				本文实例讲述了python对html代码进行escape编码的方法。分享给大家供大家参考。具体分析如下：
python包含一个cgi模块，该模块有一个escape函数可以用来对html代码进行编码转换
import cgi
s1 = "Hello <strong>world</strong>"
s2 = cgi.escape(s1)
assert s2 == "Hello <strong>world</strong>"
希望本文所述对大家的Python程序设计有所帮助。
                        您可能感兴趣的文章:python实现unicode转中文及转换默认编码的方
				本文实例讲述了python处理html转义字符的方法。分享给大家供大家参考，具体如下：
最近在用Python处理网页数据时，经常遇到一些html转义字符（也叫html字符实体），例如<> 等。字符实体一般是为了表示网页中的预留字符，比如>用>表示，防止被浏览器认为是标签，具体参考w3school的HTML 字符实体。虽然很有用，但是它们会极度影响对于网页数据的解析。为了处理这些转义字符，有如下解决方案：
1、使用HTMLParser处理
import HTMLParser
html_cont = " asdfg>123<"
html_parser = HTMLParser.HTMLParse
				| 转义字符 | 描述                                         |
| \        | (在行尾时)续行符                             |
| \\       | 反斜杠符号                                   |
| `\'`     | 单引号                  
				1. 转义字符的定义：由反斜杠加上一个字符或数字组成，它把反斜杠后面的字符或数字转换成特定的意义。
2. 一般转义字符有：\n 代表换行符；\t 代表横向跳格；\\ 代表反斜杠；\" 代表双引号；\' 代表单引号；\r代表回车；\b代表退格
3. 题目：请各位读者在草稿纸上写写下面的输出函数应该输出什么？可以根据注释后面的提示进行思考。
解析web的源文件时，发现文本节点的text中有转义字符，比如 Oil & Gas test，其中&对应的字符为&。
那么为了获得正确的text，所以就需要对该text中的转义字符进行转换。
以下代码以转换&为例，仅供参考。
code：
#include 
#include 
#include 
using namespace std;
				写爬虫是一个发送请求，提取数据，清洗数据，存储数据的过程。在这个过程中，不同的数据源返回的数据格式各不相同，有 JSON 格式，有 XML 文档，不过大部分还是 HTML 文档，HTML 经常会混杂有转移字符，这些字符我们需要把它转义成真正的字符。
什么是转义字符
在 HTML 中 、>、& 等字符有特殊含义（
 用于标签中，& 用于转义），他们不能在 HTML 代码中直接使用，
				1. 为什么要有转义？
ASCII 表中一共有 128 个字符。这里面有我们非常熟悉的字母、数字、标点符号，这些都可以从我们的键盘中输出。除此之外，还有一些非常特殊的字符，这些字符，我通常很难用键盘上的找到，比如制表符、响铃这种。
为了能将那些特殊字符都能写入到字符串变量中，就规定了一个用于转义的字符 \ ，有了这个字符，你在字符串中看的字符，print 出来后就不一定你原来看到的了。
>>> msg = "hello\013world\013hello\013python"
                [1035]xposed框架未安装xposed模块未激活怎么办(Could not load available ZIP files.Pull down to try again)
                    dsaddrd: 
                    一样 压根就没有这个文件夹
                [1113]IDEA maven 依赖无法自动导包javax.servlet.jsp-api的问题
                    m0_53101279: 
                    感觉啥也没说
                [1035]xposed框架未安装xposed模块未激活怎么办(Could not load available ZIP files.Pull down to try again)
                    m0_70692814: 
                    xposed的压缩包解压后为啥没有system文件夹
                [429]python下安装mayavi
                    卸载重新安装一遍