分支
构成,
分支
之间用符号
|
相连。从逻辑上讲,分支之间是一种“或”的关系,一个字符串只要与正则表达式中的任何一个分支相匹配,这个字符串就与整个正则表达式相匹配。比如,“第三人称代词”可以用正则表达式表示为
他|她|它|他们|她们|它们
。
这里是一些可能用到的特殊用法,不定期更新。
-
匹配任意多个不限顺序的多个字符,比如必须要出现a,b,c,d,e这5个字母,但不限顺序:
^(?=.*a)(?=.*b)(?=.*c)(?=.*d)(?=.*e).*$
-
字符
|
描述
|
\
|
将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符。例如,‘n’ 匹配字符 “n”。’\n’ 匹配一个换行符。序列 ‘\’ 匹配 “” 而 “(” 则匹配 “(”。
|
^
|
匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性,^ 也匹配 ‘\n’ 或 ‘\r’ 之后的位置。
|
$
|
匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性,$ 也匹配 ‘\n’ 或 ‘\r’ 之前的位置。
|
\t
|
TAB字符
|
\e
|
ESC字符
|
字符
|
描述
|
*
|
匹配前面的子表达式
零次或多次
。例如,zo* 能匹配 “z” 以及 “zoo”。* 等价于{0,}。
|
+
|
匹配前面的子表达式
一次或多次
。例如,‘zo+’ 能匹配 “zo” 以及 “zoo”,但不能匹配 “z”。+ 等价于 {1,}。
|
?
|
匹配前面的子表达式
零次或一次
。例如,“do(es)?” 可以匹配 “do” 或 “does” 。? 等价于 {0,1}。
|
{n}
|
n 是一个非负整数。匹配确定的 n 次。例如,‘o{2}’ 不能匹配 “Bob” 中的 ‘o’,但是能匹配 “food” 中的两个 o。
|
{n,}
|
n 是一个非负整数。至少匹配n 次。例如,‘o{2,}’ 不能匹配 “Bob” 中的 ‘o’,但能匹配 “foooood” 中的所有 o。‘o{1,}’ 等价于 ‘o+’。‘o{0,}’ 则等价于 ‘o*’。
|
{n,m}
|
m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,“o{1,3}” 将匹配 “fooooood” 中的前三个 o。‘o{0,1}’ 等价于 ‘o?’。请注意在逗号和两个数之间不能有空格。
|
?
|
非贪婪匹配标识符
。当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 “oooo”,‘o+?’ 将匹配单个 “o”,而 ‘o+’ 将匹配所有 ‘o’。
|
字符
|
描述
|
[一-龥]
|
汉字字符集,或可以用
[\u4e00-\u9fa5]
|
[xyz]
|
字符集合。匹配所包含的任意一个字符。例如, ‘[abc]’ 可以匹配 “plain” 中的 ‘a’。
|
[^xyz]
|
负值字符集合。匹配未包含的任意字符。例如, ‘[^abc]’ 可以匹配 “plain” 中的’p’、‘l’、‘i’、‘n’。
|
[a-z]
|
字符范围。匹配指定范围内的任意字符。例如,’[a-z]’ 可以匹配 ‘a’ 到 ‘z’ 范围内的任意小写字母字符。
|
[^a-z]
|
负值字符范围。匹配任何不在指定范围内的任意字符。例如,’[^a-z]’ 可以匹配任何不在 ‘a’ 到 ‘z’ 范围内的任意字符。
|
字符
|
描述
|
.
|
匹配除换行符
\n
、
\r
之外的任何单个字符
。要匹配包括
\n
在内的任何字符,请使用像"(.|\n)"的模式。
|
\b
|
匹配一个单词边界,也就是指单词和空格间的位置。例如,
er\b
可以匹配
never
中的
er
,但不能匹配
verb
中的
er
。
|
\B
|
匹配非单词边界。
er\B
能匹配
verb
中的
er
,但不能匹配
never
中的
er
。
|
\cx
|
匹配由 x 指明的控制字符。例如,
\cM
匹配一个
Control-M
或
回车符
。
x
的值必须为
A-Z
或
a-z
之一。否则,将
c
视为一个原义的
c
字符。
|
\d
|
匹配一个
数字字符
。等价于
[0-9]
。
|
\D
|
匹配一个
非数字字符
。等价于
[^0-9]
。
|
\f
|
匹配一个
换页符
。等价于
\x0c
和
\cL
。
|
\n
|
匹配一个
换行符
。等价于
\x0a
和
\cJ
。
|
\r
|
匹配一个
回车符
。等价于
\x0d
和
\cM
。
|
\s
|
匹配
任何空白字符
,包括空格、制表符、换页符等等。等价于
[ \f\n\r\t\v]
。
|
\S
|
匹配
任何非空白字符
。等价于
[^ \f\n\r\t\v]
。
|
\t
|
匹配一个
制表符
。等价于
\x09
和
\cI
。
|
\v
|
匹配一个
垂直制表符
。等价于
\x0b
和
\cK
。
|
\w
|
匹配
字母、数字、下划线
。等价于
[A-Za-z0-9_]
。
|
\W
|
匹配
非字母、数字、下划线
。等价于
[^A-Za-z0-9_]
。
|
\xn
|
匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,
\x41
匹配 “A”。
\x041
则等价于
\x04
&
1
。正则表达式中可以使用 ASCII 编码。
|
\num
|
匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,
(.)\1
匹配两个连续的相同字符。
实测,在VBA中,仅
\1
有效,当
num≥2
时无效,需要匹配连续相同的三个及以上字符的话,仅能通过
(.)\1\1\1......
|
\n
|
标识一个八进制转义值或一个向后引用。如果
\n
之前至少 n 个获取的子表达式,则 n 为向后引用。否则,如果 n 为八进制数字
(0-7)
,则 n 为一个八进制转义值。
|
\nm
|
标识一个八进制转义值或一个向后引用。如果
\nm
之前至少有 nm 个获得子表达式,则 nm 为向后引用。如果 \nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 \nm 将匹配八进制转义值 nm。
|
\nml
|
如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字
(0-7)
,则匹配八进制转义值 nml。
|
\un
|
匹配 n,其中 n 是一个用四个十六进制数字表示的
Unicode
字符。例如,
\u00A9
匹配版权符号
(?)
。
|
字符
|
描述
|
(pattern)
|
匹配
pattern
并获取这一匹配。所获取的匹配可以从产生的
Matches集合
得到,在
VBScript
中使用
SubMatches集合
,在
JScript
中则使用
$0…$9
属性。要匹配圆括号字符,请使用
\(
或
\)
。
|
(?:pattern)
|
匹配
pattern
但不获取匹配结果
,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用 “或” 字符
(\|)
来组合一个模式的各个部分是很有用。例如, 'industr(?:y|ies) 就是一个比 ‘industry|industries’ 更简略的表达式。
|
(?=pattern)
|
正向肯定预查(look ahead positive assert),在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,“Windows(?=95|98|NT|2000)“能匹配"Windows2000"中的"Windows”,但不能匹配"Windows3.1"中的"Windows”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
即: pattern1(?=pattern2),返回符合
pattern1pattern2
的模式的字符串中的
pattren1
,
pattern2
部分不返回。
|
(?!pattern)
|
正向否定预查(negative assert),在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如"Windows(?!95|98|NT|2000)“能匹配"Windows3.1"中的"Windows”,但不能匹配"Windows2000"中的"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
即: pattern1(?!pattern2),返回符合
pattern1(非pattern2)
的模式的字符串中的
pattren1
,
(非pattern2)
部分不返回。
|
(?<=pattern)
|
反向(look behind)肯定预查,与正向肯定预查类似,只是方向相反。例如,"(?<=95|98|NT|2000)Windows"能匹配"2000Windows"中的"Windows",但不能匹配"3.1Windows"中的"Windows"。
事实证明,VBA中不支持反向预查
|
(?<!pattern)
|
反向否定预查,与正向否定预查类似,只是方向相反。例如"(?<!95|98|NT|2000)Windows"能匹配"3.1Windows"中的"Windows",但不能匹配"2000Windows"中的"Windows"。
事实证明,VBA中不支持反向预查
|
x|y
|
匹配 x 或 y。例如,‘z|food’ 能匹配 “z” 或 “food”。’(z|f)ood’ 则匹配 “zood” 或 “food”。
|
运算符
|
描述
|
\
|
转义符
|
(), (?: ) , (?=), []
|
圆括号和方括号
|
*, +, ?, {n}, {n,}, {n,m}
|
限定符
|
^, $, \任何元字符、任何字符
|
定位点和序列(即:位置和顺序)
|
|
|
"或"操作
字符具有高于替换运算符的优先级,使得
m|food
匹配
m
或
food
。若要匹配
mood
或
food
,请使用括号创建子表达式,从而产生
(m|f)ood
。
|
正则表达式中的元字符特殊字符重复字符字符集通配符其它字符运算符优先级 正则表达式由若干个 分支 构成,分支之间用符号 | 相连。从逻辑上讲,分支之间是一种“或”的关系,一个字符串只要与正则表达式中的任何一个分支相匹配,这个字符串就与整个正则表达式相匹配。比如,“第三人称代词”可以用正则表达式表示为 他|她|它|他们|她们|它们 。特殊字符字符描述\将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符。例如,‘n’ 匹配字符 “n”。’\n’ 匹配
有一位美国佬编写的<<精通
正则表达式
>>专业书籍是世人公认的正则权威著作.但它不太适合初学者,尤其是没有相关编程语言背景及书
中
所及的种种计算机技术知识的读者.其
中
很多晦涩难懂的内容在
VBA
中
用不上或者对你来说根本无用的,而初学者的你却根本不知道怎样取舍.事实上,本人还没有发现一本针对
VBA
平台的正则专业书籍.网络可见到少量
VBA
正则教程,但内容多是”点到为止”.
正则表达式
通常是用来处理文本数据的,并不支持直接处理Excel单元格
中
的数据。如果想在Excel
中
使用
正则表达式
,可以使用Excel的
VBA
(Visual Basic for Applications)编写代码来实现,具体步骤如下:
1. 打开Excel文件,按Alt + F11打开
VBA
编辑器。
2. 在
VBA
编辑器
中
,点击插入->模块,在模块窗口
中
编写代码,代码内容可以参考下面的示例:
Function
RegEx
Match(ByVal text As String, ByVal pattern As String) As Boolean
Dim
regEx
As Object
Set
regEx
= CreateObject("VBScript.
RegEx
p")
regEx
.Pattern = pattern
RegEx
Match =
regEx
.Test(text)
End Function
3. 使用公式,在Excel
中
调用
RegEx
Match函数来使用
正则表达式
处理单元格
中
的数据。示例:
=
RegEx
Match(A1, "^\d+$")
这样就可以在Excel
中
使用
正则表达式
了。