awk是一个文本处理程序,但是我更喜欢叫它教官,因为这样更形象。
我喜欢把各种文本的内容称为士兵,而教官负责管理培训它们。
日志统计
开发web的人员知道,我们经常需要查看nginx的服务器来统计来访者的记录。而awk教官可以很方便帮我们处理好存放在日志中的士兵,可以帮助我们选出最高的士兵,可以帮助我们选出经常出操的士兵,可以帮我们选出哪些士兵经常在一起。
看下面的一个需求:
我们需要看看经常访问网站的有哪些ip,并且把它们的访问次数统计出来。
初看这个问题似乎很复杂,不过不要担心,有问题,找教官,我们只要把我们的要求告诉教官,它就会告诉我们把结果,这很像sql语句,我们只要写出要获取的数据就行,至于怎么获取,全部交给数据库自己处理。
我们的awk语句如下:
awk '{sum[$1]++}END{for (ip in sum) print ip,sum[ip]}' access.log|sort -rn -k 2|head
结果如下
66.98.123.241 4849
144.34.223.61 730
101.133.226.32 330
23.83.246.193 279
101.133.140.228 188
101.133.147.20 174
101.133.224.74 158
101.133.224.22 151
59.109.210.199 132
47.240.89.111 63
我们简单分析下我们写的语句
- awk这个不用说,就是我们向教官打招呼
- ‘{sum[$1]++}END{for (ip in sum) print ip,sum[ip]}’这个单引号包含的就是我们向教官询问的问题,其中第一个{}表示我们要循环每一行,然后把ip保存到sum数组中,第二个{}表示我们要把相同的ip求和统计出来,其中的END表示最后执行,当然在第一个{}之前我们也可以有一个BEGIN。
- access.log是我们要统计的文件,就是告诉教官要统计那个营的士兵
- sort是linux的排序命令,就是将士兵排序,其中 -rn表示按照身高,降序排列,因为排序还可能按照体重等排序。
- k 表示我们需要对那列进行排序,因为前面统计的是ip,count,而我们需要按照count进行排序,所以这里写2
- head 是linux的头部预览命令,一个营有很多士兵,我们直需要选出前面的几个士兵就可以了,默认它是选出前是个士兵,当然我们也可以使用 head -n 5选择前5个士兵。
工作流程
awk 'BEGIN{ commands } pattern{ commands } END{ commands }'
1、通过关键字 BEGIN 执行 BEGIN 块的内容,即 BEGIN 后花括号 {} 的内容。
2、完成 BEGIN 块的执行,开始执行body块。
3、读入有 \n 换行符分割的记录。
4、将记录按指定的域分隔符划分域,填充域,$0 则表示所有域(即一行内容),$1 表示第一个域,$n 表示第 n 个域。
5、依次执行各 BODY 块,pattern 部分匹配该行内容成功后,才会执行 awk-commands 的内容。
6、循环读取并执行各行直到文件结束,完成body块执行。
7、开始 END 块执行,END 块可以输出最终结果。
强大的功能
从上面的例子我们也能看出来,awk可以向一般语言一样,也有自己的数据结构,也有自己的条件和循环判断,而且它也可以自己定义函数,可以说我们编程常用的功能,它都有提供。
因此,当我们需要统计一些文本中的内容的时候,我们一定不要忘记去找教官awk,它可能不是最好的教官,但是它一定值得你去选择它。
Comments are closed.