目录
1,正则表达式的定义
2,正则表达式用途
正则表达式的常用选项及示例(grep为例):
sed基本语法及常用选项:
awk的基本语句及常用选项:
扩展正则表达式(egrep)
元字符总结:
3,基础的正则表达式
4,文本处理工具(sed)
sed工具用法示例:
5,awk工具
awk用法示例
1,正则表达式的定义
正则表达式又称正规表达式、常规表达式。在代码中常简写为 regex、regexp 或 RE。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串,简单来说,是一种匹配字符串的方法,通过一些特殊符号,实现快速查找、删除、替换某个特定字符串。
正则表达式一般用于脚本编程与文本编辑器中。很多文本处理器与程序设计语言均支持正则表达式,例如 Linux 系统中常见的文本处理器(grep、egrep、sed、awk)以及应用比较广泛的 Python 语言。正则表达式具备很强大的文本匹配功能,能够在文本海洋中快速高效地处理文本。
2,正则表达式用途
正则表达式对于系统管理员来说是非常重要的,系统运行过程中会产生大量的信息,这些信息有些是非常重要的,有些则仅是告知的信息。身为系统管理员如果直接看这么多的信息数据,无法快速定位到重要的信息,如“用户账号登录失败”“服务启动失败”等信息。这时可以通过正则表达式快速提取“有问题”的信息。如此一来,可以将运维工作变得更加简单、方便。
正则表达式的常用选项及示例(grep为例):
选项 | 作用 | 示例 |
grep root | 筛选文件中包含root的行 | grep root /etc/passwd |
grep ^root | 筛选以root开头的行 | grep ^root /etc/passwd |
grep bash$ | 筛选以bash结尾的行 | grep bash$ /etc/passwd |
grep -v root | 筛选文中不包含root的行 | grep -v root /etc/passwd |
grep 'r..d' | 筛选出r 和d 之间有两个字符的行 | grep 'r..d' /etc/passwd |
grep '[^s]bin' | 筛选bin前面不是s的行 | grep '[^s]bin' /etc/passwd |
grep '^$' | 筛选出空白行 | grep '^$' /etc/passwd |
grep 't[es]' | 筛选包含字符串te或ts的行 | grep 't[es]' /etc/passwd |
grep '0\{1,\}' | 筛选数字0出现1次或1次以上的行 | grep '0\{1,\}' /etc/passwd |
-e参数 | 查找多个模式 | grep -e 'ntp' -e 'root' /etc/passwd |
grep [0-3] | 筛选包含数字0-3的行 | grep [0-3] /etc/passwd |
grep '[^a-z]ae' | 筛选ae前面不是小写字母的行 | grep '[^a-z]ae' /etc/passwd |
grep '^[a-z]ae' | 筛选ae前面是小写字母的行 | grep '^[a-z]ae' /etc/passwd |
grep -n | 过滤出包含 the 的行,显示行号 | grep -n 'the' 1.txt |
grep -ni 'the' | 过滤出包含 the 的行,显示行号,不区分大小写 | grep -ni 'the' 1.txt |
grep -vn 'the' 1.txt | 过滤出不包含 the 的行,显示行号 | grep -vn 'the' 1.txt |
grep -n 'sh[io]rt' | 过滤出包含 shirt 和short的行 | grep -n 'sh[io]rt' 1.txt |
grep -n '[w]oo' | /过滤出oo前面是 w的行 | grep -n '[w]oo' 1.txt |
grep -n '[^w]oo' | 过滤出oo前面不是 w 的行 | grep -n '[^w]oo' 1.txt |
grep -n '[^a-z]oo' | 过滤出oo前面不是小写字母的行 | grep -n '[^a-z]oo' 1.txt |
grep -n '[a-z]' | 过滤出包含任意一位小写字母的行 | grep -n '[a-z]' 1.txt |
grep -n '^[a-z]' | 过滤出以小写字母开头的行 | grep -n '^[a-z]' 1.txt |
grep -n '[a-zA-Z]' | 过滤出包含任意一位字母的行 | grep -n '[a-zA-Z]' 1.txt |
grep -n '^$' | 过滤出空行 | grep -n '^$' 1.txt |
grep -n 'ooo*' | 过滤出2个以上的o的行 | grep -n 'ooo*' 1.txt |
grep -n '[0-9][0-9]' | 过滤出任意2位数字的行 | grep -n '[0-9][0-9]' 1.txt |
grep -n '[0-9][0-9]*' | 过滤出任意1位以上的数字 | grep -n '[0-9][0-9]*' 1.txt |
+ | 匹配前面的子表达式1次以上 | egrep 0+ /etc/passwd |
? | 匹配前面的字表达式0次或者1次 | egrep '(root|ntp)' /etc/passwd |
() | 将 () 号中的字符串作为一个整体 | egrep '(root|ntp)' /etc/passwd |
| | 将 () 号中的字符串作为一个整体 | egrep '(root|ntp)' /etc/passwd |
sed基本语法及常用选项:
命令语法:
sed [选项] 文件路径
常用选项:
选项 | 作用 | 示例 |
-e | 指定要执行的命令,只有一个编辑命令时可省略 | sed -e ‘编辑指令’ 文件名 |
-n | 只输出处理后的行,读入时不显示 | sed -n -e ‘编辑指令’ 文件名 |
-i | 直接原编辑文件,而不输出结果 | sed -i -e ‘编辑指令’ 文件名 |
p | 输出指定的行 | sed -n 'p' /etc/passwd |
d | 删除指定的行 | sed '1d' /etc/passwd |
s | 字串替换 | sed -n 's/root/admin/2p' /etc/passwd |
r | 读取指定文件 | sed '/the/r /etc/aaa' test.txt 将文件aaa的内容添加到test.txt文件以后 |
w | 保存为文件 | sed -n '/bash/w /aaa.txt' /etc/passwd ##将包含bash的行保存到aaa.txt文件下 |
i | 插入,在当前行前面插入一行或多行 | ed -n '3i abc' /etc/passwd ##在第三行前面插入abc |
a | 在当前行下面增加一行指定内容 | sed -n '3a abc' /etc/passwd ##在第三行追加ab |
c | 将选定行替换为指定内容 | sed -n '2c new' /etc/passwd ##将第二行替换为new |
y | 字符转换 | sed -n 'y/aaa/AAA' /etc/passwd |
awk的基本语句及常用选项:
基本语法(两种语法结构):
awk 【选项】 ‘模式或条件 {编辑指令}’ 文件1 文件2
awk -f 脚本文件 文件1 文件2
常用选项:
选项 | 说明 |
-F | 指定字段分隔符(默认空格/Tab) |
-v | 定义变量(如 -v var=value ) |
-f | 从脚本文件读取命令(如 -f script.awk ) |
-i | 直接修改原文件 |
扩展正则表达式(egrep)
通常情况下会使用基础正则表达式就已经足够但有时为了简化整个指令,需要使用范围更广的护展正则表达式。例如,使用基础正则表达式査询除文件中空白行与行首为“#”之外的行(通常用于查看生效的配置文件),执行“grep -v'^$’test.txt| grep -v'^#’”即可实现。这里需要使用管道命令来搜索两次。如果使用扩展正则表达式,可以简化为“egrep-v'^$|^#’test.txt”,其中,单引号内的管道符号表示或者(or)。
与基础正则表达式类型相同,扩展正则表达式也包含多个元字符。常见的扩展正则表达式的元字符主要包括以下几个:
元字符 | 作用 | 示例 |
+ | 重复一个或者一个以上的前一个字符 | 执行“egrep -n'wo+d' test.txt”命令,即可査询"wood""woood""woooooood"等字符串 |
? | 零个或者一个的前一个字符 | 执行“egrep -n'bes?t' test.txt"命令,即可査询“bet""best”这两个字符串 |
| | 使用或者(or)的方式找出多个字符 | 执行“egrep -n'oflis|on' test.txt”命令即可査询"of"或者"if"或者"on"字符串 |
() | 查找“组”字符串 | “egrep -n "t(ale)st test.txt"。“tast"与“test"因为这两个单词的"“"与"s!"是重复的,所以将"a"与"e”列于“()”符号当中,并以“"分隔,即可査询"tast"或者"test"字符串 |
()+ | 辨别多个重复的组 | “egrep -n'A(xyz)+C' test.txt"。该命令是査询开头的"A"结尾是"C",中间有一个以上的"xyz"字符串的意思 |
常用内置变量:
内置变量 | 作用 |
NR | 当前处理的行号(从1开始) |
NF | 当前行的字段总数 |
$0 | 整行内容 |
$1 , $2 | 第1、2个字段 |
FS | 输入字段分隔符(同 -F ) |
OFS | 输出字段分隔符(默认空格) |
FILENAME | 当前处理的文件名 |
awk还可以使用关系运算符作为“条件”,用于比较数字与字符串,只有条件为真,才执行指定的动作。
> | < | >= | <= | == | != | && | || | ! | + | - | * | / | % | ^ |
大于 | 小于 | 大于等于 | 小于等于 | 等于 | 不等于 | 与 | 或 | 非 | 加 | 减 | 乘 | 除 | 取余 | 乘方 |
元字符总结:
字符 | 作用 |
/ | 将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符 |
^ | 匹配输入字符串的开始位置 |
$ | 匹配输入字符串的结束位置 |
* | 匹配前面的子表达式零次或多次 |
+ | 匹配前面的子表达式一次或多次 |
? | 匹配前面的子表达式零次或一次 |
. | 匹配除换行符(\n、\r)之外的任何单个字符 |
[a-z] | 字符范围。匹配指定范围内的任意字符。 |
{n} | n是一个非负整数,匹配确定的n次 |
{n,} | n是一个非负整数,至少匹配n 次 |
{n,m} | m 和 n均为非负整数,其中n<= m。最少匹配n次目最多匹配m次 |
\d | 匹配一个数字字符。等价于 [0-9] |
\D | 匹配一个非数字字符。等价于[^0-9] |
\s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于[\fn\r\t\v] |
\S | 匹配任何非空白字符。等价于[^ \fn\r\t\v] |
\w | 匹配字母、数字、下划线。等价于'[A-Za-z0-9]' |
\W | 匹配非字母、数字、下划线。等价于'[^A-Za-z0-9_]' |
\n | 匹配一个换行符 |
\f | 匹配一个换页符 |
\r | 匹配一个回车符 |
3,基础的正则表达式
- 查找特定字符
查找特定字符非常简单,如执行以下命令即可从 test.txt 文件中査找出特定字符“the”所在位置其中“-n”表示显示行号、“-1”表示不区分大小写。命令执行后,符合匹配标准的字符,字体颜色会变为红色(本章中全部通过加粗显示代替)。
若反向选择,如查找不包含“the”字符的行,则需要通过 grep 命令的“-v”选项实现,并配合“-n”
起使用显示行号。
- 利用中括号 [ ] 来查找集合字符
想要査找“shirt”与“short”这两个字符串时,可以发现这两个字符串均包含“sh”与“rt”。此时执行以下命令即可同时査找到“shirt”与“short”这两个字符串,其中“[]”中无论有几个字符,都仅代表一个字符,也就是说“[io]”表示匹配“i”或者“o”。
若要查找包含重复单个字符“oo”时,只需要执行以下命令即可。
若査找“oo”前面不是“w”的字符串,只需要通过集合字符的反向选择“[^]”来实现该目的。例如执行“grep -n'[^w]oo'test.txt”命令表示在 test.txt 文本中査找“oo”前面不是“w”的字符串。
查询不包含指定字符开头的行,例如不包含小写字母的行grep -n '[^a-z]' text.txt
- 查找行首与行尾字符
基础正则表达式包含两个定位元字符:“^”(行首)与“$”(行尾)。在上面的示例中,查询“the”字符串时出现了很多包含“the”的行,如果想要査询以“the”字符串为行首的行,则可以通过“^”元字符来实现。
查询以小写字母开头的行可以通过“^[a-z]”规则来过滤,
査询大写字母开头的行则使用“^[A-Z]”规则
若查询不以字母开头的行则使用“^[^a-zA-Z]”规则
“^”符号在元字符集合“[]”符号内外的作用是不一样的,在“[]”符号内表示反向选择,在“[]”符号外则代表定位行首。反之,若想查找以某一特定字符结尾的行则可以使用“$”定位符。
查询以小数点(.)结尾的行:
查询空白行时,执行 grep -n '^$' test.txt 命令
- 查找任意一个字符与重复字符
在正则表达式中小数点(.)也是一个元字符,代表任意一个字符。例如执行以下命令就可以査找“w??d”的字符串,即共有四个字符,以 w开头 d 结尾。
若想要査询 00、000、ooooo 等资料,则需要使用星号(*)元字符。但需要注意的是,“*”代表的是重复零个或多个前面的单字符。“o*”表示拥有零个(即为空字符)或大于等于一个“o”的字符,因为允许空字符,所以执行“grep-n'o*' test.txt”命令会将文本中所有的内容都输出打印,同理,若査询包含至少两个 。 以上的字符串,则执行“grep -n 'ooo*' test.txt”命令即可。
査询以 w开头 d 结尾,中间包含至少一个 。的字符串,
执行以下命令即可查询以 w开头 d 结尾,中间的字符可有可无的字符串。
执行以下命令即可查询任意数字所在行。
- 查找连续字符范围
如果想要限制一个范围内的重复的字符串该如何实现呢?例如,查找三到五个。的连续字符,这个时候就需要使用基础正则表达式中的限定范围的字符“{}”。因为“{}”在 she11 中具有特殊意义,所以在使用“{}”字符时,需要利用转义字符“\”,将“{}”字符转换成普通字符。
查找两个o的字符:
查询以w开头以d结尾,中间包含2-5个o的字符串:
查询以w开头以d结尾,中间包含2个或2个以上o的字符串:
4,文本处理工具(sed)
sed(stream EDitor)是一个强大而简单的文本解析转换工具,可以读取文本,并根据指定的条件对文本内容进行编辑(删除、替换、添加、移动等),最后输出所有行或者仅输出处理的某些行。sed 也可以在无交互的情况下实现相当复杂的文本处理操作,被广泛应用于 she11 脚本中,用以完成各种自动化处理任务,主要包括三个过程:
读取:sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间,pattern space)。
执行:默认情况下,所有的 sed 命令都在模式空间中顺序地执行,除非指定了行的地址,否则 sed命令将会在所有的行上依次执行。
显示:发送修改后的内容到输出流。在发送数据后,模式空间将会被清空。
sed工具用法示例:
- 输出符合条件的文本(p表示正常输出)
sed -n 'p' test.txt ##输出所有内容,等同于cat test.txtsed -n '3p' test.txt ##输出第三行sed -n '3,5p' test.txt ##输出3-5行sesd -n 'p;n' test.txt ##输出所有奇数行sed -n 'n;p' test.txt ##输出所有偶数行sed -n '1,5{p;n}' test.txt ##输出第1-5行之间的奇数行sed -n '10,${n;p}' test.txt ##输出第10行至文件尾之间的偶数行sed -n '/the/p' test.txt ##输出包含the的行sed -n '4,/the/p' test.txt ##输出从第4行至第一个包含the的行sed -n '/the/=' test.txt ##输出包含the的行所在的行号,等号(=)用来输出行号sed -n '/^PI/p' test.txt ##输出以PI开头的行sed -n '/[0-9]$/p' test.txt ##输出以数字结尾的行sed -n '/\<wood\>/p' test.txt ##输出包含单词wood的行,\<, \>代表单词边界
- 删除符合条件的文本
sed '1d' /etc/passwd 删除第1行sed '$d' /etc/passwd 删除最后1行sed '/^$/d' etc/passwd 删除空行sed '2,4d' /etc/passwd 删除第2~4行sed '/root/d' /etc/passwd 删除含有root的行sed '/root/!d' /etc/passwd 删除不包含root的行,!:表示取反sed '/^root/d' /etc/passwd 删除以root开头的行sed '/nologin$/d' /etc/passwd 删除以nologin结尾的行
- 替换符合条件的文本
sed 's/root//g' /etc/passwd 将文件中所有的root都删除sed '/root/c aaaaa' /etc/passwd 将含有root的行替换为aaaaased -n 's/root/admin/2p' /etc/passwd 将每行的第二个root替换成adminsed '/root/s/root/ROOT/g' /etc/passwd 将包含root行的所有行中的root替换为ROOTsed '1,3s/bin/BIN/g' /etc/passwd 将第1~3行中的所有bin都替换为BINsed 's/^/#/' /etc/passwd 在每行行首插入 # 号sed 's/$/ABC/' /etc/passwd 在每行行尾插入字符 ABCsed '/root/s/^/#/' /etc/passwd 将包含root的行的行首插入 # 号sed '1c ABC' /etc/passwd 将第一行替换为 ABCsed 'y/rot/ROT/' /etc/passwd 将rot替换为ROT,y表示应替换sed '1,10y/root/ROOT/' /etc/passwd 将第1~10行中的root对应替换为ROOT
- 迁移符合条件的文本
参数 | 作用 |
H | 复制到剪贴板 |
g G | 将剪贴板中的数据覆盖,追加至指定行 |
w | 保存为文件 |
r | 读取指定文件 |
a | 追加指定内容 |
具体用法如下
sed'/the/{H;d};$G' test.txt 将包含 the 的行迁移至文件末尾,{;}用于多个操作sed '1,5{H;d};17G' test.txt 将第 1~5 行内容转移至第 17 行后sed '/the/w out.file' test.txt 将包含 the 的行另存为文件 out.filesed "/the/r /etc/hostname test.txt 将文件/etc/hostname 的内容添加到包含 the 的每行以后sed '3aNew'test.txt 在第 3 行后插入一个新行,内容为 Newsed "/the/aNew'test.txt 在包含 the 的每行后插入一个新行,内容为 Newsed "3aNew1\nNew2'test.txt 在第 3 行后插入多行内容,中间的\n 表示换行
5,awk工具
在 Linux/UNIX 系统中,awk 是一个功能强大的编辑工具,逐行读取输入文本,并根据指定的匹配模式进行查找,对符合条件的内容进行格式化输出或者过滤处理,可以在无交互的情况下实现相当复杂的文本操作,被广泛应用于 She11 脚本,完成各种自动化配置任务。格式如下:
awk 【选项】 ‘模式或条件 {编辑指令}’ 文件1 文件2
awk -f 脚本文件 文件1 文件2
awk用法示例
- 按行输出文本
awk -F":" '{print}' /etc/passwd 输出所有awk -F":" '{print $0}' /etc/passwd 输出所有awk -F: 'NR==3,NR==6{print}' /etc/passwd 显示第3行到第6行awk -F: 'NR>=3&&NR<=6{print}' /etc/passwd 显示第3行到第6行awk -F: 'NR==3||NR==6{print}' /etc/passwd 显示第3行和第6行awk '(NR%2)==1{print}' /etc/passwd 显示奇数行awk '(NR%2)==0{print}' /etc/passwd 显示偶数行awk '/^root/{print}' /etc/passwd 显示以root开头的行awk '/nologin$/{print}' /etc/passwd 显示以nologin结尾的行awk 'BEGIN {x=0};/\/bin\/bash$/{x++};END {print x}' /etc/passwd 统计以/bin/bash结尾的行数awk 'BEGIN{RS=""};END{print NR}' /etc/ssh/sshd_config 统计以空行分隔的文本段落数awk '{print NR,$0}' /etc/passwd 输出每行的行号awk -F: '{print NR,NF,$NF,"\t",$0}' /etc/passwd 依次打印行号,字段数,最后字段值,制表符,每行内容awk -F: 'NR==5{print}' /etc/passwd 显示第5行route -n|awk 'NR!=1{print}' 不显示第一行awk -F: '{print NF}' /etc/passwd 显示每行有多少字段awk -F: '{print $NF}' /etc/passwd 将每行第NF个字段的值打印出来awk -F: 'NF==4 {print }' /etc/passwd 显示只有4个字段的行awk -F: 'NF>2{print $0}' /etc/passwd 显示每行字段数量大于2的行
- 按字段输出文本
awk -F":" '{print $3}' /etc/passwd 显示第三列awk -F":" '{print $1 $3}' /etc/passwd $1与$3相连输出,无空格,awk -F":" '{print $1,$3}' /etc/passwd 多了一个逗号,输出第1和第3个字段,有空格awk -F: '$2=="!!" {print}' /etc/shadow 统计密码为空的shadow记录awk 'BEGIN {FS=":"}; $2=="!!" {print}' /etc/shadow 显示密码为空的用户的shadow信息 awk -F ":" '$7~"/bash" {print $1}' /etc/passwd 显示第七个字段为/bash的行的第一个字段awk -F: 'NR==5{print}' /etc/passwd 显示第5行awk -F":" '{print $1 " " $3}' /etc/passwd $1与$3之间手动添加空格分隔
- 通过管道,双引号调用shell命令
awk -F: '/bash$/{print | "wc -l"}' /etc/passwd 统计bash用户的个数awk 'BEGIN {while ("w" | getline) n++ ; {print n-2}}' 统计在线用户的数量awk 'BEGIN {"hostname" | getline;print $0}' 输出当前主机名awk -F: '$1~/mail/ && $3>6 {print }' /etc/passwd 逻辑与,$1匹配mail,并且$3>6awk -F: '{if($1~/mail/ && $3>8) print }' /etc/passwd awk -F: '$1~/mail/ || $3>1000 {print }' /etc/passwd 逻辑或,统计以mail开头或第3列大于1000的行
awk -F: '{if($1~/mail/ || $3>1000) print }' /etc/passwd