通过 awk 统计多个文件不同行的行数

### 使用 `awk` 统计多个文件中不同行的行数当需要统计多个文件中具有唯一性的行数时，可以利用 `awk` 的内置关联数组功能来去重并统计这些不同的行。以下是具体实现方法： ```bash awk '!seen[$0]++' file1 file2 file3 | wc -l ``` 这段命令的作用是遍历所有指定的文件 (`file1`, `file2`, `file3`)，并通过 `!seen[$0]++` 来过滤掉重复的行[^1]。这里 `$0` 表示整行内容，而 `seen` 是一个关联数组，用来记录每行是否已经出现过。如果某一行未被记录，则将其加入到输出流中；反之则忽略该行。最后通过管道传递给 `wc -l` 命令以计算剩余的不同行总数。 #### 更复杂情况处理假如我们面对的是大量文件甚至整个目录下所有的文本文件，并且希望一次性完成这项任务，那么可以结合 `find` 和 `xargs` 等工具扩展上述基本方案: ```bash find . -type f -name "*.txt" -print0 | xargs -0 awk '!seen[$0]++' | wc -l ``` 在这里，`find` 负责查找当前目录及其子目录内的所有 `.txt` 文件[^4] ，并将它们零终止的名字列表交给 `xargs` 处理。后者再把这些名字作为参数提供给后续的 `awk` 进程链执行相同的功能——去除重复项之后再次调用 `wc -l` 获取最终的结果。此外，如果我们还需要知道哪些具体的行被认为是唯一的，可以在上面的基础上稍作改动，保留原始数据的同时也给出总计信息： ```bash find . -type f -name "*.txt" -print0 | \ xargs -0 awk ' { if (!seen[$0]++) { unique_lines[++unique_count]=$0; } } END { for(i=1;i<=unique_count;i++) print "Unique Line:", i, "->", unique_lines[i]; print "\nTotal Unique Lines Counted:", unique_count; }' ``` 此版本除了继续追踪独一无二的行之外，还额外保存了每一个这样的实例以便于进一步审查或报告用途[^5]。 --- ###

阅读全文

通过 awk 统计多个文件不同行的行数

相关推荐

Shell脚本统计文件行数的8种方法

linux下wc统计文件的个数、行数、字数、字节数等信息方法

linuxawk将多个文件结果列合并到一个文件整理.pdf

iOS统计代码总行数的命令(便捷且简单)

Linux命令大全：awk、sed、grep及文本处理工具解析

Linux操作教程：文件处理与权限管理指南

【优化案例】：实操分享：Shell脚本统计行数的优化经验

2. Linux运维find sed awk： 揭秘find sed awk高级技巧

awk表达式与系统变量的使用指南

我现在有一个文件，我想打乱不同行的内容，比如把原本第5-100行的内容放到第500行之后，怎么用linux命令行来实现。具体肯定是更复杂的行内容的打乱，你可以看情况实现

linux如何把两个文件按照第一列对比，把相同的不同的抓出来

一款基于MVVM架构的学习小项目，已经实现的功能有： 1.新闻和视频列表的查看 2.基于高德地图实现定位和城市搜索 3.

拍照，录像，特效，修图，二维码，人脸识别.....zip

二维码代码(1).zip

睿意通少年派中最强的存在，包括四大二维码的生成以及无视距离的远程控制，现公开具体的源代码，仅以此纪念我们逝去的青春.zi

基于IMM卡尔曼滤波器的GNSS_UWB_INS子模型切换算法组合导航仿真的Matlab代码_Matlab code f

微信支付宝支付二维码生成.zip

条码扫描视图，能设置view的基本属性，宽高等，扫描框内有矩形校正区域，扫描时有简单的动画显示，支持一维码、二维码（包括

识别图片中的二维码.zip

Matlab中D-MT（大地电磁）方法的Toy-Ocam反演代码_Toy Occam inversion code fo

docker启动各种容器，nginx、tomcat 、redis、mysql、rabbitmq、nacos、postgresqll等各种容器

Redis从入门到实战：高性能缓存与分布式锁源码实现教程

大家在看

ispVM18.1.1

fonteditorV1.3.2.zip 字体工具

Mydac v8.6 Pro Full D7-XE7-XE8-Seatle 10

蒙特卡罗剂量模拟和可视化工具包：一组旨在帮助临床医生和研究人员使用 GEANT4 或 TOPAS 的 Matlab 函数-matlab开发

按时间抽取的蝶形运算流图-FFT原理以及实现

最新推荐

Linux awk将文件某列按照逗号分隔的例子

expect实现单台、多台服务器批量scp传输文件

一款基于MVVM架构的学习小项目，已经实现的功能有： 1.新闻和视频列表的查看 2.基于高德地图实现定位和城市搜索 3.

Hyperledger Fabric v2与Accord Project Cicero智能合约开发指南

深度神经网络优化技巧全解析

什么是噪声功率密度

Libshare: Salesforce的高效可重用模块集合

机器学习技术要点与应用解析

点击歌曲没反应

SM-CNN-Torch: Torch实现短文本对排名的CNN模型

2. Linux运维find sed awk：揭秘find sed awk高级技巧