【shell】shell编程语言 特辑 --文本三剑客详解

11、文本三剑客(重要)

11.1 grep

grep是Linux中使用最广泛的命令之一。grep(全局正则表达式版本)允许对文本文件进行模式查找。如果找到匹配模式,grep打印包含模式的所有行。grep支持基本正则表达式,也支持其扩展集。

  • grep 的参数选项
  • 匹配grep的一般模式
  • 只匹配字母或数字,或者两者混用
  1. grep 一般格式为:

grep “选项”基本正则表达式“文件”

  1. 双引号的使用

在grep命令中输入字符串参数时,最好将其用双引号括起来。例如:“mystring”。这样做有两个原因,一是以防被误解为shell命令,二是可以用来查找多个单词组成的字符串,例如:“jetplane”,如果不用双引号将其括起来,那么单词plane将被误认为是一个文件,查询结果
将返回“文件不存在”的错误信息。在调用变量时,也应该使用双引号,诸如:grep“$MYVAR”文件名,如果不这样,将没有返回结果。

在调用模式匹配时,应使用单引号。

  1. grep选项

常用的grep选项有:

-c 只输出匹配行的计数。

-i 不区分大小写(只适用于单字符)。

-h 查询多文件时不显示文件名。

-l 查询多文件时只输出包含匹配字符的文件名。

-n 显示匹配行及行号。

-s 不显示不存在或无匹配文本的错误信息。

-v 显示不包含匹配文本的所有行。

  1. grep举例
(1) 多文件查找
[root@bogon z3]# grep "sort"*.doc
或在所有文件中查询单词“ sort it”
[root@bogon z3]# grep "sort it" *
 
[root@bogon z3]# grep -c "48"data.f
 4
grep返回数字4,意义是有4行包含字符串“48”
(2)显示满足匹配模式的所有行行数
[root@bogon z3]# grep -n "48" data.f
1:48    Dec     3BC1997         LPSX    68.00   LVX2A   138
2:483     Sept    5AP1996         USP     65.00   LVX2C   189
5:484     nov     7PL1996         CAD     49.00   PLV2C   234
6:483     may     5PA1998         USP     37.00   KVM9D   644
(3)显示不匹配的行
[root@bogon z3]# grep -v "48" data.f
 47      Oct     3ZL1998         LPSX    43.00   KVM9D   512
 219     dec     2CC1999         CAD     23.00   PLV2C   68
 216     sept    3ZL1998         USP     86.00   KVM9E   234
(4)大小写敏感
[root@bogon z3]# grep -i "sept" data.f
483     Sept    5AP1996         USP     65.00   LVX2C   189
216     sept    3ZL1998         USP     86.00   KVM9E   234

5、正则表达式

(1)模式匹配
假定要抽取代码为484和483的城市位置,可以使用[ ]来指定字符串范围,这里用48开始,以3或4结尾,这样抽出484或483。
[root@bogon z3]# grep "48[34]" data.f
483     Sept    5AP1996         USP     65.00   LVX2C   189
484     nov     7PL1996         CAD     49.00   PLV2C   234
483     may     5PA1998         USP     37.00   KVM9D   644
不匹配行首 如果要抽出记录,使其行首不是48,可以在方括号中使用^记号,表明查询在行首开始。
[root@bogon z3]# grep '^[^48]' data.f
219     dec     2CC1999         CAD     23.00   PLV2C   68
216     sept    3ZL1998         USP     86.00   KVM9E   234
(2)匹配任意字符
如果抽取以K开头,以D结尾的所有代码,可使用下述方法,因为已知代码长度为5个字符:
[root@bogon z3]# grep 'K...D' data.f
47      Oct     3ZL1998         LPSX    43.00   KVM9D   512
483     may     5PA1998         USP     37.00   KVM9D   644
(3)日期查询
一个常用的查询模式是日期查询。先查询所有以5开始以1996或1998结尾的所有记录。使用模式5..199[6,8]。这意味着第一个字符为5,后跟两个点,接着是199,剩余两个数字是6或8。
[root@bogon z3]# grep '5..199[68]' data.f
483     Sept    5AP1996         USP     65.00   LVX2C   189
483     may     5PA1998         USP     37.00   KVM9D   644
(4)模式出现机率
抽取包含数字4至少重复出现两次的所有行,方法如下:
[root@bogon z3]# grep '4/{2/}' data.f
483     may     5PA1998         USP     37.00   KVM9D   644
使用grep匹配“与”或者“或”模式
[root@bogon z3]# grep -E '216|219' data.f
219     dec     2CC1999         CAD     23.00   PLV2C   68
216     sept    3ZL1998         USP     86.00   KVM9E   234

[root@bogon z3]# grep -E '216|219' data.f
219     dec     2CC1999         CAD     23.00   PLV2C   68
216     sept    3ZL1998         USP     86.00   KVM9E   234
6. 类名
类等价的正则表达式类等价的正则表达式
[[:upper:]]   [A-Z]
[[:lower:]]   [a-z]
[[:alnum:]]   [0-9a-zA-Z]
[[:space:]]   空格或tab键
[[:digit:]]   [0-9]
[[:alpha:]]   [a-zA-Z]
如果要通过文件快速查找字符串或模式, grep是一个很好的选择。简单地说, grep是shell编程中很重要的工具。

11.2 sed

sed是一种流编辑器,它是文本处理中非常有用的工具,本身是一个管道命令,能够完美的配合正则表达式使用,功能不同凡响。主要是以行为单位进行处理,可以将数据行进替换、删除、新增、选取等特定工作。下面先了解一下sed的用法:

sed命令行格式为:

sed [options] ‘command’ file(s)

常见选项

-n使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN的资料一般都会被列出到萤幕上,但如果加上 -n 参数后,则只有经过sed 特殊处理的那一行(或者动作)才会被列出来
-e直接在指令列模式上进行 sed 的动作编辑
-f直接将 sed 的动作写在一个档案内, -f filename 则可以执行 filename 内的sed 动作;
-rsed 的动作支援的是延伸型正规表示法的语法。(预设是基础正规表示法语法)
-i直接修改读取的档案内容,而不是由萤幕输出。

常见使用命令

a新增, a 的后面可以接字串,而这些字串会在新的一行出现(目前的下一行)
c取代, c 的后面可以接字串,这些字串可以取代 n1,n2 之间的行
d删除,因为是删除啊,所以 d 后面通常不接任何东西
i插入, i 的后面可以接字串,而这些字串会在新的一行出现(目前的上一行)
p列印,亦即将某个选择的资料印出。通常 p 会与参数 sed -n 一起运作
s取代,可以直接进行取代的工作,通常这个 s 的动作可以搭配正规表示法

sed具体操作

(1)删除某行
#删除第一行
[root@bogon z3]# sed '1d' test.txt
#删除最后一行
[root@bogon z3]# sed '$d' test.txt
#删除第一行到第二行
[root@bogon z3]# sed '1,2d' test.txt
#删除第二行到最后一行
[root@bogon z3]# sed '2,$d' test.txt


(2)显示某行
#显示第一行
[root@bogon z3]# sed -n '1p' test.txt
#显示最后一行
[root@bogon z3]# sed -n '$p' test.txt
#显示第一行到第二行
[root@bogon z3]# sed -n '1,2p' test.txt
#显示第二行到最后一行
[root@bogon z3]# sed -n '2,$p' test.txt


(3)使用模式进行查询
#查询包括关键字ruby所在所有行
[root@bogon z3]# sed -n '/ruby/p' test.txt
#查询包括关键字$所在所有行,使用反斜线\屏蔽特殊含义
[root@bogon z3]# sed -n '/\$/p' test.txt



(4)增加一行或多行字符串
[root@bogon z3]# cat test.txt
Hello!
ruby is me,welcome to my blog.
End
#第一行后增加字符串"drink tea"
[root@bogon z3]# sed '1a drink tea' test.txt
Hello!
drink tea
ruby is me,welcome to my blog. 
End
#第一行到第三行后增加字符串"drink tea"
[root@bogon z3]# sed '1,3a drink tea' test.txt
Hello!
drink tea
ruby is me,welcome to my blog.
drink tea
end
drink tea
#第一行后增加多行,使用换行符\n
[root@bogon z3]# sed '1a drink tea\nor coffee' test.txt   
Hello!
drink tea
or coffee
ruby is me,welcome to my blog.
end


(5)代替一行或多行
#第一行代替为Hi
[root@bogon z3]# sed '1c Hi' test.txt
Hi
ruby is me,welcome to my blog.
End
#第一行到第二行代替为Hi
[root@bogon z3]# sed '1,2c Hi' test.txt
Hi
end


(6)替换一行中的某部分
格式:sed 's/要替换的字符串/新的字符串/g' (要替换的字符串可以用正则表达式)
#替换ruby为bird
[root@bogon z3]# sed -n '/ruby/p' test.txt | sed 's/ruby/bird/g' 
#删除ruby
[root@bogon z3]# sed -n '/ruby/p' test.txt | sed 's/ruby//g'


(7)插入
#在文件test.txt中最后一行直接输入"bye"
[root@bogon z3]# sed -i '$a bye' test.txt
[root@bogon z3]# cat test.txt
Hello
ruby is me,welcome to my blog.
end
bye


(8)删除文档中匹配行
sed -i '/匹配字符串/d'  filename  



(9)替换匹配行中的某个字符串
sed -i '/匹配字符串/s/替换源字符串/替换目标字符串/g' filename

11.3 cut

cut命令用来显示行中的指定部分,删除文件中指定字段。

该命令有两项功能,其一是用来显示文件的内容,它依次读取由参数file所指明的文件,将它们的内容输出到标准输出上;其二是连接两个或多个文件,如cut fl f2 > f3将把文件fl和几的内容合并起来,然后通过输出重定向符“>”的作用,将它们放入文件f3中。

cut的语法格式:

cut (选项) file

常用选项

-b仅显示行中指定直接范围的内容;
-c仅显示行中指定范围的字符;
-d指定字段的分隔符,默认的字段分隔符为“TAB”;
-f显示指定字段的内容;
-n与“-b”选项连用,不分割多字节字符;

cut示例

例如有一个学生报表信息:test1.txt
[root@bogon z3]# cat test1.txt 
123 abc:123 abc def 123:abc
123 abc:123 abc def 123:abc
123 abc:123 abc def 123:abc
123 abc:123 abc def 123:abc


(1)使用 -f 选项提取指定字段,通常与-d选项一起使用:
[root@bogon z3]# cut –d’ ’ -f 1,3 test1.txt 
123 abc
123 abc
123 abc
123 abc
[root@bogon z3]# cut –d’:’ –f 2,3 test1.txt 
123 abc def 123:abc
123 abc def 123:abc
123 abc def 123:abc
123 abc def 123:abc


(2)cut命令可以将一串字符作为列来显示,字符字段的记法:
N-:从第N个字节、字符、字段到结尾;
N-M:从第N个字节、字符、字段到第M个(包括M在内)字节、字符、字段;
-M:从第1个字节、字符、字段到第M个(包括M在内)字节、字符、字段。
上面是记法,结合下面选项将摸个范围的字节、字符指定为字段: 
-b 表示字节;
-c 表示字符;
-f 表示定义字段。
例如有一个txt文件:test2.txt
[root@bogon z3]# cat test2.txt 
abcdefghijklmnopqrstuvwxyz 
abcdefghijklmnopqrstuvwxyz 
abcdefghijklmnopqrstuvwxyz 
abcdefghijklmnopqrstuvwxyz 
abcdefghijklmnopqrstuvwxyz


打印第1个到第3个字符: 
[root@bogon z3]# cut -c1-3 test2.txt 
abc 
abc 
abc 
abc 
abc
打印前2个字符:
[root@bogon z3]# cut -c-2 test2.txt 
ab 
ab 
ab 
ab 
ab
打印从第5个字符开始到结尾:
[root@bogon z3]# cut -c5- test2.txt 
efghijklmnopqrstuvwxyz 
efghijklmnopqrstuvwxyz 
efghijklmnopqrstuvwxyz 
efghijklmnopqrstuvwxyz 
efghijklmnopqrstuvwxyz

11.4 awk

awk是强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。

awk的命令行格式为:

awk [options] ‘command’ file1,file2…

awk常用选项

选项说明
-F指定输入文件分隔符
-f从脚本文件中读取awk命令
(1)截取文档中的某个段
[root@bogon z3]# head -n2 /etc/passwd |awk -F ':' '{print $1}'
root
bin

-F 选项的作用是指定分隔符,如果不加-F指定,则以空格或者tab为分隔符。 
Print为打印的动作,用来打印出某个字段。$1为第一个字段,$2为第二个字段,依次类推,有一个特殊的那就是$0,它表示整行。

[root@bogon z3]# head -n2 test.txt |awk -F':' '{print $0}'
rto:x:0:0:/rto:/bin/bash
operator:x:11:0:operator:/roto:/sbin/nologin

注意:awk的格式,-F后紧跟单引号,然后里面为分隔符,print的动作要用 { } 括起来,否则会报错。print还可以打印自定义的内容,但是自定义的内容要用双引号括起来。

[root@bogon z3]# head -n2 test.txt |awk -F':' '{print $1"#"$2"#"$3"#"$4}'
rto#x#0#0
operator#x#11#0


(2)匹配字符或字符串
[root@bogon z3]# awk '/oo/' test.txt
operator:x:11:0:operator:/rooto:/sbin/nologin
roooto:x:0:0:/rooooto:/bin/bash
awk还可以多次匹配,如下例中匹配完root,再匹配test,它还可以只打印所匹配的段。
[root@bogon z3]# awk -F ':' '/root/ {print $1,$3} /test/ {print $1,$3}' /etc/passwd
root 0
operator 11
test 511
test1 512

AWK 内置变量

ARGC命令行参数个数
ARGV命令行参数排列
ENVIRON支持队列中系统环境变量的使用
FILENAMEawk浏览的文件名
FNR浏览文件的记录数
FS设置输入域分隔符,等价于命令行 -F选项
NF浏览记录的域的个数
NR已读的记录数
OFS输出域分隔符
ORS输出记录分隔符
RS控制记录分隔符
[root@bogon z3]# head -n3 /etc/passwd | awk -F ':' '{print NF}'
7
7
7
[root@bogon z3]# head -n3 /etc/passwd | awk -F ':' '{print $NF}'
/bin/bash
/sbin/nologin
/sbin/nologin
NF 是多少段,而$NF是最后一段的值, 而NR则是行号。
[root@bogon z3]# head -n3 /etc/passwd | awk -F ':' '{print NR}'
1
2
3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值