awk linux系统的中的教官

作者: dreamfly 分类: 个人博客发布时间: 2020-05-08 10:43

awk是一个文本处理程序，但是我更喜欢叫它教官，因为这样更形象。

我喜欢把各种文本的内容称为士兵，而教官负责管理培训它们。

日志统计

开发web的人员知道，我们经常需要查看nginx的服务器来统计来访者的记录。而awk教官可以很方便帮我们处理好存放在日志中的士兵，可以帮助我们选出最高的士兵，可以帮助我们选出经常出操的士兵，可以帮我们选出哪些士兵经常在一起。

看下面的一个需求：
我们需要看看经常访问网站的有哪些ip，并且把它们的访问次数统计出来。
初看这个问题似乎很复杂，不过不要担心，有问题，找教官，我们只要把我们的要求告诉教官，它就会告诉我们把结果，这很像sql语句，我们只要写出要获取的数据就行，至于怎么获取，全部交给数据库自己处理。

我们的awk语句如下：

 awk '{sum[$1]++}END{for (ip in sum) print ip,sum[ip]}' access.log|sort -rn -k 2|head

结果如下

66.98.123.241 4849
144.34.223.61 730
101.133.226.32 330
23.83.246.193 279
101.133.140.228 188
101.133.147.20 174
101.133.224.74 158
101.133.224.22 151
59.109.210.199 132
47.240.89.111 63

我们简单分析下我们写的语句

awk这个不用说，就是我们向教官打招呼
‘{sum[$1]++}END{for (ip in sum) print ip,sum[ip]}’这个单引号包含的就是我们向教官询问的问题，其中第一个{}表示我们要循环每一行，然后把ip保存到sum数组中，第二个{}表示我们要把相同的ip求和统计出来，其中的END表示最后执行，当然在第一个{}之前我们也可以有一个BEGIN。
access.log是我们要统计的文件，就是告诉教官要统计那个营的士兵
sort是linux的排序命令，就是将士兵排序，其中 -rn表示按照身高，降序排列，因为排序还可能按照体重等排序。
k 表示我们需要对那列进行排序，因为前面统计的是ip,count,而我们需要按照count进行排序，所以这里写2
head 是linux的头部预览命令，一个营有很多士兵，我们直需要选出前面的几个士兵就可以了，默认它是选出前是个士兵，当然我们也可以使用 head -n 5选择前5个士兵。

工作流程

awk 'BEGIN{ commands } pattern{ commands } END{ commands }'

1、通过关键字 BEGIN 执行 BEGIN 块的内容，即 BEGIN 后花括号 {} 的内容。
2、完成 BEGIN 块的执行，开始执行body块。
3、读入有 \n 换行符分割的记录。
4、将记录按指定的域分隔符划分域，填充域，$0 则表示所有域(即一行内容)，$1 表示第一个域，$n 表示第 n 个域。
5、依次执行各 BODY 块，pattern 部分匹配该行内容成功后，才会执行 awk-commands 的内容。
6、循环读取并执行各行直到文件结束，完成body块执行。
7、开始 END 块执行，END 块可以输出最终结果。

强大的功能

从上面的例子我们也能看出来，awk可以向一般语言一样，也有自己的数据结构，也有自己的条件和循环判断，而且它也可以自己定义函数，可以说我们编程常用的功能，它都有提供。

因此，当我们需要统计一些文本中的内容的时候，我们一定不要忘记去找教官awk，它可能不是最好的教官，但是它一定值得你去选择它。

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！

评论已关闭!