相关文章推荐
八块腹肌的机器人  ·  Android开发 ...·  2 年前    · 
风流倜傥的豆腐  ·  vue.js - Vue Error in ...·  2 年前    · 
腼腆的滑板  ·  oracle 中str_split-掘金·  2 年前    · 

对于处理字符串或分析大文本块的许多应用程序而言,正则表达式是不可缺少的工具。

正则表达式的工作方式

使用正则表达式处理文本的中心构件是正则表达式引擎(由 .NET 中的 System.Text.RegularExpressions.Regex 对象表示)。 使用正则表达式处理文本至少要求向该正则表达式引擎提供以下两方面的信息:

  • 要在文本中标识的正则表达式模式。

    在 .NET 中,正则表达式模式用特殊的语法或语言定义,该语法或语言与 Perl 5 正则表达式兼容,并添加了一些其他功能,例如从右到左匹配。 有关更多信息,请参见 正则表达式语言 - 快速参考

  • 要为正则表达式模式分析的文本。

    Regex 类的方法使你可以执行以下操作:

  • 通过调用 Regex.IsMatch 方法确定输入文本中是否具有正则表达式模式。 有关使用 IsMatch 方法验证文本的示例,请参阅 如何:确认字符串是有效的电子邮件格式

  • 通过调用 Regex.Match Regex.Matches 方法检索匹配正则表达式模式的一个或所有文本匹配项。 第一个方法返回提供有关匹配文本的信息的 System.Text.RegularExpressions.Match 对象。 第二个方法返回 MatchCollection 对象,该对象对于在分析的文本中找到的每个匹配项包含一个 System.Text.RegularExpressions.Match 对象。

  • 通过调用 Regex.Replace 方法替换匹配正则表达式模式的文本。 有关使用 Replace 方法更改日期格式和移除字符串中的无效字符的示例,请参阅 如何:从字符串中剥离无效字符 以及 示例:更改日期格式

    有关正则表达式对象模型的概述,请参见 正则表达式对象模型

    若要详细了解正则表达式语言,请参阅 正则表达式语言 - 快速参考 ,或下载和打印下面的小册子之一:

  • 快速参考(Word (.docx) 格式)
  • 快速参考(PDF (.pdf) 格式)
  • 正则表达式示例

    String 类包括字符串搜索和替换方法,当你要在较大字符串中定位文本字符串时,可以使用这些方法。 当你希望在较大字符串中定位若干子字符串之一时,或者当你希望在字符串中标识模式时,正则表达式最有用,如以下示例所示。

    如果使用 System.Text.RegularExpressions 处理不受信任的输入,则传递一个超时。 恶意用户可能会向 RegularExpressions 提供输入,从而导致 拒绝服务攻击 。 使用 RegularExpressions 的 ASP.NET Core 框架 API 会传递一个超时。

    System.Web.RegularExpressions 命名空间包含大量正则表达式对象,这些对象实现预定义的正则表达式模式,用于分析 HTML、XML 和 ASP.NET 文档中的字符串。 例如, TagRegex 类标识字符串中的开始标记, CommentRegex 类标识字符串中的 ASP.NET 注释。

    示例 1:替换子字符串

    假设一个邮件列表包含一些姓名,这些姓名有时包括称谓(Mr.、Mrs.、Miss 或 Ms.)以及姓氏和名字。 假设你在从列表中生成信封标签时不希望包含标题。 在这种情况下,可以使用正则表达式删除标题,如以下示例所示:

    using System;
    using System.Text.RegularExpressions;
    public class Example
       public static void Main()
          string pattern = "(Mr\\.? |Mrs\\.? |Miss |Ms\\.? )";
          string[] names = { "Mr. Henry Hunt", "Ms. Sara Samuels",
                             "Abraham Adams", "Ms. Nicole Norris" };
          foreach (string name in names)
             Console.WriteLine(Regex.Replace(name, pattern, String.Empty));
    // The example displays the following output:
    //    Henry Hunt
    //    Sara Samuels
    //    Abraham Adams
    //    Nicole Norris
    
    Imports System.Text.RegularExpressions
    Module Example
        Public Sub Main()
            Dim pattern As String = "(Mr\.? |Mrs\.? |Miss |Ms\.? )"
            Dim names() As String = {"Mr. Henry Hunt", "Ms. Sara Samuels", _
                                      "Abraham Adams", "Ms. Nicole Norris"}
            For Each name As String In names
                Console.WriteLine(Regex.Replace(name, pattern, String.Empty))
        End Sub
    End Module
    ' The example displays the following output:
    '    Henry Hunt
    '    Sara Samuels
    '    Abraham Adams
    '    Nicole Norris
    

    正则表达式模式 (Mr\.? |Mrs\.? |Miss |Ms\.? ) 匹配任何“Mr”、“Mr.”、“Mrs”、“Mrs.”、“Miss”、“Ms”或“Ms.”。 对 Regex.Replace 方法的调用会将匹配的字符串替换为 String.Empty;换句话说,将其从原始字符串中移除。

    示例 2:识别重复单词

    意外地重复单词是编写者常犯的错误。 使用正则表达式标识重复的单词,如以下示例所示:

    using System;
    using System.Text.RegularExpressions;
    public class Class1
       public static void Main()
          string pattern = @"\b(\w+?)\s\1\b";
          string input = "This this is a nice day. What about this? This tastes good. I saw a a dog.";
          foreach (Match match in Regex.Matches(input, pattern, RegexOptions.IgnoreCase))
             Console.WriteLine("{0} (duplicates '{1}') at position {2}",
                               match.Value, match.Groups[1].Value, match.Index);
    // The example displays the following output:
    //       This this (duplicates 'This') at position 0
    //       a a (duplicates 'a') at position 66
    
    Imports System.Text.RegularExpressions
    Module modMain
        Public Sub Main()
            Dim pattern As String = "\b(\w+?)\s\1\b"
            Dim input As String = "This this is a nice day. What about this? This tastes good. I saw a a dog."
            For Each match As Match In Regex.Matches(input, pattern, RegexOptions.IgnoreCase)
                Console.WriteLine("{0} (duplicates '{1}') at position {2}", _
                                  match.Value, match.Groups(1).Value, match.Index)
        End Sub
    End Module
    ' The example displays the following output:
    '       This this (duplicates 'This') at position 0
    '       a a (duplicates 'a') at position 66
    

    正则表达式模式 \b(\w+?)\s\1\b 的解释如下:

    通过将正则表达式选项设置为 Regex.Matches,调用 RegexOptions.IgnoreCase 方法。 因此,匹配操作不区分大小写,此示例将子字符串“This this”标识为重复。

    输入字符串包括子字符串“this? This”。 但是,由于插入标点符号,该子字符串不被标识为重复。

    示例 3:动态生成区分区域性的正则表达式

    下面的示例演示如何将正则表达式的功能与 .NET 的全球化功能所提供的灵活性结合在一起。 它使用 NumberFormatInfo 对象确定系统的当前区域性设置中货币值的格式。 然后使用该信息动态构造从文本提取货币值的正则表达式。 对于每个匹配,它提取仅包含数字字符串的子组,将其转换为 Decimal 值,然后计算累计值。

    using System;
    using System.Collections.Generic;
    using System.Globalization;
    using System.Text.RegularExpressions;
    public class Example
       public static void Main()
          // Define text to be parsed.
          string input = "Office expenses on 2/13/2008:\n" +
                         "Paper (500 sheets)                      $3.95\n" +
                         "Pencils (box of 10)                     $1.00\n" +
                         "Pens (box of 10)                        $4.49\n" +
                         "Erasers                                 $2.19\n" +
                         "Ink jet printer                        $69.95\n\n" +
                         "Total Expenses                        $ 81.58\n";
          // Get current culture's NumberFormatInfo object.
          NumberFormatInfo nfi = CultureInfo.CurrentCulture.NumberFormat;
          // Assign needed property values to variables.
          string currencySymbol = nfi.CurrencySymbol;
          bool symbolPrecedesIfPositive = nfi.CurrencyPositivePattern % 2 == 0;
          string groupSeparator = nfi.CurrencyGroupSeparator;
          string decimalSeparator = nfi.CurrencyDecimalSeparator;
          // Form regular expression pattern.
          string pattern = Regex.Escape( symbolPrecedesIfPositive ? currencySymbol : "") +
                           @"\s*[-+]?" + "([0-9]{0,3}(" + groupSeparator + "[0-9]{3})*(" +
                           Regex.Escape(decimalSeparator) + "[0-9]+)?)" +
                           (! symbolPrecedesIfPositive ? currencySymbol : "");
          Console.WriteLine( "The regular expression pattern is:");
          Console.WriteLine("   " + pattern);
          // Get text that matches regular expression pattern.
          MatchCollection matches = Regex.Matches(input, pattern,
                                                  RegexOptions.IgnorePatternWhitespace);
          Console.WriteLine("Found {0} matches.", matches.Count);
          // Get numeric string, convert it to a value, and add it to List object.
          List<decimal> expenses = new List<Decimal>();
          foreach (Match match in matches)
             expenses.Add(Decimal.Parse(match.Groups[1].Value));
          // Determine whether total is present and if present, whether it is correct.
          decimal total = 0;
          foreach (decimal value in expenses)
             total += value;
          if (total / 2 == expenses[expenses.Count - 1])
             Console.WriteLine("The expenses total {0:C2}.", expenses[expenses.Count - 1]);
             Console.WriteLine("The expenses total {0:C2}.", total);
    // The example displays the following output:
    //       The regular expression pattern is:
    //          \$\s*[-+]?([0-9]{0,3}(,[0-9]{3})*(\.[0-9]+)?)
    //       Found 6 matches.
    //       The expenses total $81.58.
    
    Imports System.Collections.Generic
    Imports System.Globalization
    Imports System.Text.RegularExpressions
    Public Module Example
        Public Sub Main()
            ' Define text to be parsed.
            Dim input As String = "Office expenses on 2/13/2008:" + vbCrLf + _
                                  "Paper (500 sheets)                      $3.95" + vbCrLf + _
                                  "Pencils (box of 10)                     $1.00" + vbCrLf + _
                                  "Pens (box of 10)                        $4.49" + vbCrLf + _
                                  "Erasers                                 $2.19" + vbCrLf + _
                                  "Ink jet printer                        $69.95" + vbCrLf + vbCrLf + _
                                  "Total Expenses                        $ 81.58" + vbCrLf
            ' Get current culture's NumberFormatInfo object.
            Dim nfi As NumberFormatInfo = CultureInfo.CurrentCulture.NumberFormat
            ' Assign needed property values to variables.
            Dim currencySymbol As String = nfi.CurrencySymbol
            Dim symbolPrecedesIfPositive As Boolean = CBool(nfi.CurrencyPositivePattern Mod 2 = 0)
            Dim groupSeparator As String = nfi.CurrencyGroupSeparator
            Dim decimalSeparator As String = nfi.CurrencyDecimalSeparator
            ' Form regular expression pattern.
            Dim pattern As String = Regex.Escape(CStr(IIf(symbolPrecedesIfPositive, currencySymbol, ""))) + _
                                    "\s*[-+]?" + "([0-9]{0,3}(" + groupSeparator + "[0-9]{3})*(" + _
                                    Regex.Escape(decimalSeparator) + "[0-9]+)?)" + _
                                    CStr(IIf(Not symbolPrecedesIfPositive, currencySymbol, ""))
            Console.WriteLine("The regular expression pattern is: ")
            Console.WriteLine("   " + pattern)
            ' Get text that matches regular expression pattern.
            Dim matches As MatchCollection = Regex.Matches(input, pattern, RegexOptions.IgnorePatternWhitespace)
            Console.WriteLine("Found {0} matches. ", matches.Count)
            ' Get numeric string, convert it to a value, and add it to List object.
            Dim expenses As New List(Of Decimal)
            For Each match As Match In matches
                expenses.Add(Decimal.Parse(match.Groups.Item(1).Value))
            ' Determine whether total is present and if present, whether it is correct.
            Dim total As Decimal
            For Each value As Decimal In expenses
                total += value
            If total / 2 = expenses(expenses.Count - 1) Then
                Console.WriteLine("The expenses total {0:C2}.", expenses(expenses.Count - 1))
                Console.WriteLine("The expenses total {0:C2}.", total)
            End If
        End Sub
    End Module
    ' The example displays the following output:
    '       The regular expression pattern is:
    '          \$\s*[-+]?([0-9]{0,3}(,[0-9]{3})*(\.[0-9]+)?)
    '       Found 6 matches.
    '       The expenses total $81.58.
    

    在当前区域性设置为“英语 - 美国”(en-US) 的计算机上,该示例动态生成正则表达式 \$\s*[-+]?([0-9]{0,3}(,[0-9]{3})*(\.[0-9]+)?)。 此正则表达式模式可以按以下方式解释:

    在输入字符串中查找美元符号 ($) 的一个匹配项。 正则表达式模式字符串包含一个反斜杠来指示按字面解释美元符号而非将其作为正则表达式定位点。 单独的 $ 符号将指示正则表达式引擎应尝试在字符串的末尾开始匹配。 为了确保当前区域性的货币符号不被错误解释为正则表达式符号,该示例调用 Regex.Escape 方法对该字符进行转义。 查找空白字符的零个或多个匹配项。 [-+]? 查找正号或负号的零个或一个匹配项。 ([0-9]{0,3}(,[0-9]{3})*(\.[0-9]+)?) 外部括号将此表达式定义为捕获组或子表达式。 如果找到匹配项,则有关匹配字符串的此部分的信息可以从第二个 Group 对象中检索(该对象位于 GroupCollection 属性所返回的 Match.Groups 对象中)。 集合中的第一个元素表示整个匹配项。 [0-9]{0,3} 查找十进制数字 0 到 9 的零到三个匹配项。 (,[0-9]{3})* 查找后跟三个十进制数字的组分隔符的零个或多个匹配项。 查找小数分隔符的一个匹配项。 [0-9]+ 查找一个或多个十进制数字。 (\.[0-9]+)? 查找后跟至少一个十进制数字的小数分隔符的零个或一个匹配项。
  • System.Text.RegularExpressions
  • System.Text.RegularExpressions.Regex
  • 正则表达式 - 快速参考(以 Word 格式下载)
  • 正则表达式 - 快速参考(以 PDF 格式下载)
  •