Unicode转义(\uXXXX)的编码和解码_转义unicode 英文_蓝天的IT生涯的博客

Javascript的实现

解码的实现

function decode(s) {
    return unescape(s.replace(/\\(u[0-9a-fA-F]{4})/gm, '%$1'));
 unescape是用来处理%uXXXX这样格式的字符串, 将\uXXXX替换成%uXXXX后unescape就可以处理了. 
 编码的实现


   function encode1(s) {
    return escape(s).replace(/%(u[0-9A-F]{4})|(%[0-9A-F]{2})/gm, function($0, $1, $2) {
        return $1 && '\\' + $1.toLowerCase() || unescape




    
($2);
 和解码中相对应, 使用escape编码, 然后将%uXXXX替换为\uXXXX, 因为escape还可能把一些字符编码成%XX的格式, 所以这些字符还需要使用unescape还原回来. 
 escape编码结果%uXXXX中的XXXX是大写的, 所以后面的replace只处理大写的A-F. 
 另一种编码的实现 
 不使用正则和escape 

   
    function encode2(s) {
    var i, c, ret = [],
        pad = '000';
    for (i = 0; i < s.length; i++) {
        c = s.charCodeAt(i);
        if (c > 256) {
            c




    
 = c.toString(16);
            ret[i] = '\\u' + pad.substr(0, 4 - c.length) + c;
        } else {
            ret[i] = s[i];
    return ret.join('');
 遍历字符串中的字符, 那些charCode大于256的会转换成16进制字符串c.toString(16), 如果不足4位则左边补0pad.substr(0, 4 - c.length). 结尾将遍历的结果合并成字符串返回. 
 C#的实现 
 解码的实现 

    
     static Regex reUnicode = new Regex(@"\\u([0-9a-fA-F]{4})", RegexOptions.Compiled);
public static string Decode(string s)
    return reUnicode.




    
Replace(s, m =>
        short c;
        if (short.TryParse(m.Groups[1].Value, System.Globalization.NumberStyles.HexNumber, CultureInfo.InvariantCulture, out c))
            return "" + (char)c;
        return m.Value;
 正则和js中的一样, 将XXXX转换以16进制System.Globalization.NumberStyles.HexNumber解析为short类型, 然后直接(char)c就能转换成对应的字符, "" + (char)c用于转换成字符串类型返回. 
 由于正则中也有\uXXXX, 所以需要写成\\uXXXX来表示匹配字符串\uXXXX, 而不是具体的字符. 
 上面使用到了Lambda, 需要至少dotnet 4的SDK才能编译通过, 可以在dotnet 2下运行. 
 编码的实现 

     
      static Regex reUnicodeChar = new Regex(@"[^\u0000-\u00ff]", RegexOptions.




    
Compiled);
public static string Encode(string s)
    return reUnicodeChar.Replace(s, m => string.Format(@"\u{0:x4}", (short)m.Value[0]));
 和C#的解码实现正好相反, 0-255之外的字符, 从char转换成short, 然后string.Format以16进制, 至少输出4位. 
 Java的实现 
 解码的实现 
 和C#相似的, 使用正则 

      
       static final Pattern reUnicode = Pattern.compile("\\\\u([0-9a-zA-Z]{4})");
public static String decode1(String s) {
    Matcher m = reUnicode.matcher(s);
    StringBuffer sb = new StringBuffer(




    
s.length());
    while (m.find()) {
        m.appendReplacement(sb,
                Character.toString((char) Integer.parseInt(m.group(1), 16)));
    m.appendTail(sb);
    return sb.toString();
 Java语言没有内嵌正则语法, 也没有类似C#的@"\u1234"原始形式字符串的语法, 所以要表示正则中匹配\, 就需要\\\\, 其中2个是用于Java中字符转义, 2个是正则中的字符转义. 
 Java语言中没有设计函数或者委托的语法, 所以它的正则库提供的是find appendReplacement appendTail这些方法的组合, 等价于js和C#中的replace. 
 这里使用StringBuffer类型是由于appendReplacement只接受这个类型, StringBuffer有线程安全的额外操作, 所以性能差一点. 也许第三方的正则库能把API设计的更好用点. 
 Integer.parseInt(m.group(1), 16)用于解析为int类型, 之后再(char), 以及Character.toString转换成字符串. 
 解码的另一种实现 
 因为StringBuffer的原因, 不使用正则的实现




    
 

       
        public static String decode2(String s) {
    StringBuilder sb = new StringBuilder(s.length());
    char[] chars = s.toCharArray();
    for (int i = 0; i < chars.length; i++) {
        char c = chars[i];
        if (c == '\\' && chars[i + 1] == 'u') {
            char cc = 0;
            for (int j = 0;




    
 j < 4; j++) {
                char ch = Character.toLowerCase(chars[i + 2 + j]);
                if ('0' <= ch && ch <= '9' || 'a' <= ch && ch <= 'f') {
                    cc |= (Character.digit(ch, 16) << (3 - j) * 4);
                } else {
                    cc = 0;
                    break;
            if (cc > 0) {
                i += 5;
                sb




    
.append(cc);
                continue;
        sb.append(c);
    return sb.toString();
 手工做就是麻烦很多, 代码中也一坨的符号. 
 遍历所有字符chars, 检测到\u这样的字符串, 检测后续的4个字符是否是16进制数字的字符表示. 因为Character.isDigit会把一些其它语系的数字也算进来, 所以保险的做法'0' <= ch && ch <= '9'. 
 Character.digit会把0-9返回为int类型的0-9, 第2个参数是16时会把a-f返回为int类型的10-15. 
 剩下的就是用|=把各个部分的数字合并到一起, 转换成char类型. 还有一些调整遍历位置等. 
 编码的实现 
 考虑到Java正则的杯具, 还是继续手工来吧, 相对解码来说代码少点. 

        
         public static String encode(String s) {
    StringBuilder sb = new StringBuilder(s.length() * 3);
    for (char c : s.toCharArray()) {




    

        if (c < 256) {
            sb.append(c);
        } else {
            sb.append("\\u");
            sb.append(Character.forDigit((c >>> 12) & 0xf, 16));
            sb.append(Character.forDigit((c >>> 8) & 0xf, 16));
            sb.append(Character.forDigit((c >>> 4) & 0xf, 16));
            sb.append(Character.forDigit((c) & 0xf, 16));
    return sb.toString();
 对应于上文Java编码的实现正好是反向的实现, 依旧遍历字符, 遇到大于256的字符, 用位运算提取出4部分并使用Character.forDigit转换成16进制数对应的字符. 
 剩下就是sb.toString()返回了. 
 编码从逻辑上比解码简单点.
 对付字符串, js还是最顺手的, 也方便测试.
 位运算的性能很高.
 Java的正则库设计的很不方便, 可以考虑第三方.
 Java的语法设计现在看来呆板, 落后, 也没有js那种灵活.
 上文Java的非正则实现可以写成等价的C#代码.
 
 
 转自：http://netwjx.github.io/blog/2012/07/07/encode-and-decode-unicode-escape-string/
原文链接 http://netwjx.github.io/blog/2012/07/07/encode-and-decode-unicode-escape-string/
在涉及Web前端开发时, 有时会遇到\uXXXX格式表示的字符, 其中XXXX是16进制数字的字符串表示形式, 在js中这个叫Unicode转义字符, 和\n \r同属于转义字符. 在其他语言中也有类似的, 可能还有其它变...
urlclr(".\data\waitlist.txt")
经过查找资料得知是在一定的条件下反斜杠会导致这个错误，网上有人说用双反斜杠就可以解决，但是个人的尝试结果是该方法并不一定有效，最好方法就是把反斜杠改成斜杠
urlclr("./data/waitlist.txt")
这样就解决了这个问题。
                                    Windows11 中文程序乱码,出现这种问题是字符编码问题导致的.
如果你是安装的Windows11 偷跑镜像来安装的系统,那么就会出现这种情况.
因为偷跑镜像流出的时候,微软还没有对Windows11进行中文本地化.
即便是到现在依旧没有全部完成本地化(2021年7月8日)
即便之后通过预览计划正式更新到Windows11先行版也会遗留下关于字符设置的问题.
首先,打开控制面板.
找到时钟和区域.
选择区域.
打开管理.
选择非Unicode程序的语言.
更改系统区域设置为中国.(需要提供admin权限