Linux下如何对内容去重,用什么命令
很多朋友都对“Linux下如何对内容去重,用什么命令”的内容比较感兴趣,对此小编整理了相关的知识分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获,那么感兴趣的朋友就继续往下看吧!
到此这篇关于“Linux下如何对内容去重,用什么命令”的文章就介绍到这了,更多相关内容请搜索博信以前的文章或继续浏览下面的相关文章,希望大家以后多多支持博信!
大家可能经常遇到文件内容排序去重处理的事情,使用 linux 命令可以很方便的处理,sort 命令在处理文件排序和去重中起着非常重要的左右,是文件处理的利器。
比如有以下文件内容:
pythontab.com
43451512121 41457fdf 42455dfsf 134576432423 069324345 06a7824e 06a958e33 434568343 06c156453 06d714545678 434511721 06e328076 434573434 43454880 06f1463121 43453847131 070b123664 070d334377 071310423590 0715612 072612197798
想要按照第二列排序去重,怎么做呢?其实只需要 sort 命令就可以解决了
sort-t$'\t'-k2-upythontab.com
sort 排序命令
-t 指定分隔符为‘\t’
-k 指定第三列
-u 去重
sort的其他一些选项:
-r 降序排列
-o 把排序结果输出到源文件
sort默认是把结果输出到标准输出,所以需要用重定向才能将结果写入文件,形如
sort filename>newfile
如果将结果输出到原文件,用重定向相当于清空
-n 看为数字来比较
你有没有遇到过10比2小的情况。我反正遇到过。出现这种情况是由于排序程序将这些数字按字符来排序了,排序程序会先比较1和2,显然1小,所以就将10放在2前面喽。这也是sort的一贯作风。
我们如果想改变这种现状,就要使用-n选项,来告诉sort,“要以数值来排序”!
-f 会将小写字母都转换为大写字母来进行比较,亦即忽略大小写
-c 会检查文件是否已排好序,如果乱序,则输出第一个乱序的行的相关信息,最后返回1
-C 会检查文件是否已排好序,如果乱序,不输出内容,仅返回1
-M 会以月份来排序,比如JAN小于FEB等等
-b 会忽略每一行前面的所有空白部分,从第一个可见字符开始比较。
到此这篇关于“Linux下如何对内容去重,用什么命令”的文章就介绍到这了,更多相关内容请搜索博信以前的文章或继续浏览下面的相关文章,希望大家以后多多支持博信!
版权声明
本文仅代表作者观点,不代表博信信息网立场。