正则表达式使用概述

2023-11-14 阅读量

正则表达式使用概述

一、什么是正则表达式

正则表达式（Regluar Expressions）又称规则表达式，这个概念最初是由Unix中的工具软件（如sed 和 grep）普及开的。正则表达式在代码中常简写为REs，regexes或regexp（regex patterns）。它本质上是一个小巧的、高度专用的编程语言。许多程序设计语言都支持通过正则表达式进行字符串操作。

二、正则表达式能做什么

正则表达式的主要应用对象是文本，使用正则表达式可以指定想要匹配的字符串规则，然后通过这个规则来匹配、查找、替换或切割那些符合指定规则的文本。总体来讲，正则表达式可以对指定的文本实现以下功能：

查找与替换：判断给定字符串中是否包含满足正则表达式所指定的匹配规则的子串，如查找一段文本中的所包含的IP地址。另外，还可以对查找到的子串进行内容替换。

匹配验证：判断给定的字符串是否符合正则表达式所指定的过滤规则，从而可以判断某个字符串的内容是否符合特定的规则（如email地址、手机号码等）；当正则表达式用于匹配验证时，通常需要在正则表达式字符串的首部和尾部加上^和$，以匹配整个待验证的字符串。

字符串分割与子串截取：基于子串查找功能还可以以符合正则表达式所指定的匹配规则的字符串作为分隔符对给定的字符串进行分割。

三、正则中常用的元字符【★★★★★】

基本类常用元字符：

元字符	功能
.	匹配除了换行符以外的任意单个字符
*	前导字符出现0次或者连续多次
.*	任意长度字符
^	行首{以…开头}
$	行尾{以…结尾}
^$	空行
[]	匹配括号里面的任意单个字符或一组单个字符
[^]	匹配不包括括号里面的任意单个字符或一组单个字符

其他类常用字符：

元字符	功能
<>	精准匹配
()	组字符（看成一个整体）
?	前导字符出现0次或1次
+	前导字符出现1次或1次以上
\|	或（匹配a或b）
{n}	前导字符重复n次
{n,}	前导字符至少重复n次
{n,m}	前导字符至少重复n次，最多重复m次

四、案例演示

环境搭建如下：

[root@localhost ~]# cat 2.txt
I am nanxi !
I am learning linux.
this is a test

I like basketball ,music and chinese chess!
#my blog is	 http:zzxe.eu.org
#my qq num is 3213138337

Aaaa, nanxizzxe
#not my  572891888887.
^^^^^^^^66$$$$$$$^^^$$
nanxiNANXInanxinanxi666666


李 2113421234
张 500224197
王 1233423423432zzxe
万 zzxe66666688888888
吕 lzy235872451234814
孔 150000123874591242
夏 222113859123487192
赵 37142518322922103X

简单案列演示：

#   查找以my开头的行；
[root@localhost ~]# grep '^my' 2.txt
my blog is	 http:zzxe.eu.org
my qq num is 3213138337

#   查找以.结尾的行
[root@localhost ~]# grep '\.$' 2.txt ### . 表示任意字符，如果不加转义，那么每一行都会被查找到。
I am learning linux.
#not my  572891888887.

#   查找文件内容中的空格
[root@localhost ~]# grep ' ' 2.txt   ### '^$' 表示空行

#   引用变量查找
[root@localhost ~]# m=zzxe
[root@localhost ~]# grep "$m" 2.txt  ###必须双引号，单引号无法转义变量
#my blog is	 http:zzxe.eu.org
Aaaa, nanxizzxe
王 1233423423432zzxe
万 zzxe66666688888888

#   查找除注释和空行以外的内容
[root@localhost ~]# egrep -v '^#|^$' 2.txt ###拓展正则表达式必须使用egrep或者grep -E
I am nanxi !
I am learning linux.
this is a test
I like basketball ,music and chinese chess!
Aaaa, nanxizzxe
^^^^^^^^66$$$$$$$^^^$$
nanxiNANXInanxinanxi666666
李 2113421234
张 500224197
王 1233423423432zzxe
万 zzxe66666688888888
吕 lzy235872451234814
孔 150000123874591242
夏 222113859123487192
赵 37142518322922103X

#   查找文本内容中正确的身份证号
[root@localhost ~]# egrep '[0-9]{17}(X|[0-9])' 2.txt
孔 150000123874591242
夏 222113859123487192
赵 37142518322922103X
[root@localhost ~]# egrep '\<[0-9]{17}(X|[0-9])\>' 2.txt
孔 150000123874591242
夏 222113859123487192
赵 37142518322922103X

#   统计/etc/passwd单个字母每个出现了多少次，每个单词出现了多少次
[root@localhost ~]# cp /etc/passwd ./      ###操作重要文件时建议先复制或者备份
[root@localhost ~]# cat passwd | tr '[0-9:/]' ' '|grep '.' -o|sort|uniq -c|sort -rn
    280				        ### .表示任意字符，-o表示查看每次都匹配到了什么
     75 n
     71 o
     61 s
     52 i
	 ...

[root@localhost ~]# cat passwd | tr '[0-9:/x]' ' ' |xargs -n1|sort|uniq -c|sort -rn
     22 sbin
     16 nologin
      6 var
      5 bin
      4 root
      3 sync
	  ...

“没有人可以回到过去，但谁都可以从现在开始”。

——《人民日报》