我目前有几个文本,其中有时包含字符‘无效字符’,例如\uf0b7或\uf077。我没有办法知道一个特定的文本可能包含哪些无效的字符代码,我想知道是否有一种方法可以确保清除字符串中所有类型的“无效字符”,因为后来的一个进程(依赖于第三方软件包)无法接收包含它的字符串。
我尝试过寻找解决方案,但得到的结果都是关于人们想要删除的常规字符(例如,'^%$&*')的答案,这些字符被归类为无效字符,但是我想删除/替换所有形式的实际字符‘无效字符’
发布于 2019-05-28 16:20:52
Python库的编解码器可能会有所帮助。看看这里的文档: https://docs.python.org/2/library/codecs.htm
在我的用例中,我正在对包含非ASCII文本的文档进行一些分析。就我而言,忽略无效字符是可以接受的。我用以下代码行打开文件,并能够解析语料库。
for filename in os.listdir(ROOT_DIR): with codecs.open(os.path.join(ROOT_DIR, filename), encoding = 'UTF8', errors ='replace' ) as f:
发布于 2021-02-19 00:30:57
我也遇到过类似的问题。 It turns out 专用区域字符位于 Co general category 中,由 category() 在 unicodedata 中返回。
Co
category()
unicodedata
我解决了下面的问题:
import unicodedata