Cómo usar el comando uniq en Linux

Un indicador de shell en una computadora con Linux.

El uniqcomando de Linux recorre rápidamente sus archivos de texto en busca de líneas únicas o duplicadas. En esta guía, cubrimos su versatilidad y características, así como también cómo puede aprovechar al máximo esta ingeniosa utilidad.

Encontrar líneas de texto coincidentes en Linux

El uniqcomando es rápido, flexible y excelente en lo que hace. Sin embargo, como muchos comandos de Linux, tiene algunas peculiaridades, lo cual está bien, siempre y cuando los conozca. Si da el paso sin un poco de conocimiento interno, bien podría quedarse rascándose la cabeza con los resultados. Señalaremos estas peculiaridades a medida que avanzamos.

El uniqcomando es perfecto para aquellos en el campo de un solo propósito, diseñado para hacer una cosa y hacerlo bien. Es por eso que también es particularmente adecuado para trabajar con tuberías y desempeñar su papel en las tuberías de comando. Uno de sus colaboradores más frecuentes es sort porque uniq tiene que tener input ordenado sobre el que trabajar.

¡Vamos a encenderlo!

Ejecutando uniq sin opciones

Tenemos un archivo de texto que contiene la letra de Robert Johnson canción Creo que voy a polvo mi escoba. Veamos qué uniqhace con eso.

Escribiremos lo siguiente para canalizar la salida a less:

uniq dust-my-broom.txt | Menos

El comando "uniq dust-my-broom.txt | less" en una ventana de terminal.

Obtenemos la canción completa, incluidas las líneas duplicadas, en less:

La salida del comando "uniq dust-my-broom.txt | less" en less en una ventana de terminal.

Eso no parece ser ni las líneas únicas ni las líneas duplicadas.

Correcto, porque esta es la primera peculiaridad. Si ejecuta uniqsin opciones, se comporta como si hubiera utilizado la -uopción (líneas únicas). Esto le dice uniqque imprima solo las líneas únicas del archivo. La razón por la que ve líneas duplicadas es porque, para uniq considerar una línea como un duplicado, debe estar adyacente a su duplicado, que es donde sortentra en juego.

Cuando ordenamos el archivo, agrupa las líneas duplicadas y las uniq trata como duplicadas. Usaremos sort en el archivo, canalizaremos la salida ordenada uniqy luego canalizaremos la salida final a less.

Para hacerlo, escribimos lo siguiente:

ordenar polvo-mi-escoba.txt | uniq | Menos

El comando "sort dust-my-broom.txt | uniq | less" en una ventana de terminal.

Aparece una lista ordenada de líneas less.

Salida de sort dust-my-broom.txt | uniq | menos en menos en una ventana de terminal

La línea, "Creo que quitaré el polvo de mi escoba", definitivamente aparece en la canción más de una vez. De hecho, se repite dos veces en las primeras cuatro líneas de la canción.

Entonces, ¿por qué aparece en una lista de líneas únicas? Debido a que la primera vez que aparece una línea en el archivo, es única; solo las entradas posteriores son duplicadas. Puede pensar en ello como una lista de la primera aparición de cada línea única.

Usemos de sortnuevo y redirigamos la salida a un nuevo archivo. De esta manera, no tenemos que usarlo sorten todos los comandos.

Escribimos el siguiente comando:

ordenar polvo-mi-escoba.txt> sorted.txt

El comando "sort dust-my-broom.txt> sorted.txt" en una ventana de terminal.

Ahora, tenemos un archivo preordenado para trabajar.

Contando duplicados

Puede utilizar la -copción (recuento) para imprimir el número de veces que aparece cada línea en un archivo.

Escriba el siguiente comando:

uniq -c sorted.txt | Menos

El comando "uniq -c sorted.txt | less" en una ventana de terminal.

Cada línea comienza con la cantidad de veces que esa línea aparece en el archivo. Sin embargo, notará que la primera línea está en blanco. Esto le indica que hay cinco líneas en blanco en el archivo.

Salida del comando "uniq -c sorted.txt | less" en less en una ventana de terminal.

Si desea que la salida se clasifique en orden numérico, puede alimentar la salida desde uniqen sort. En nuestro ejemplo, usaremos las opciones -r(inversa) y -n(ordenación numérica) y canalizaremos los resultados a less.

Escribimos lo siguiente:

uniq -c sorted.txt | sort -rn | Menos

El comando "uniq -c sorted.txt | sort -rn | less" en una ventana de terminal.

La lista está ordenada en orden descendente según la frecuencia de aparición de cada línea.

Salida de uniq -c sorted.txt | sort -rn | menos en menos en una ventana de terminal

Listar solo líneas duplicadas

Si desea ver solo las líneas que se repiten en un archivo, puede usar la -dopción (repetidas). No importa cuántas veces se duplica una línea en un archivo, solo aparece una vez.

Para usar esta opción, escribimos lo siguiente:

uniq -d sorted.txt

El comando "uniq -d sorted.txt" en una ventana de terminal.

Las líneas duplicadas se enumeran para nosotros. Notará la línea en blanco en la parte superior, lo que significa que el archivo contiene líneas en blanco duplicadas; no es un espacio dejado uniqpara compensar cosméticamente la lista.

Salida del comando "uniq -d sorted.txt" en una ventana de terminal.

También podemos combinar las opciones -d(repetido) y -c(contar) y canalizar la salida sort. Esto nos da una lista ordenada de las líneas que aparecen al menos dos veces.

Escriba lo siguiente para usar esta opción:

uniq -d -c sorted.txt | sort -rn

El comando "uniq -d -c sorted.txt | sort -rn" en una ventana de terminal.

Listado de todas las líneas duplicadas

Si desea ver una lista de cada línea duplicada, así como una entrada por cada vez que aparece una línea en el archivo, puede usar la -Dopción (todas las líneas duplicadas).

Para utilizar esta opción, escriba lo siguiente:

uniq -D sorted.txt | Menos

El comando "uniq -D sorted.txt | less" en una ventana de terminal.

El listado contiene una entrada para cada línea duplicada.

Salida de uniq -D sorted.txt | menos en menos en una ventana de terminal

Si usa la --group opción, imprime cada línea duplicada con una línea en blanco antes ( prepend) o después de cada grupo ( append), o antes y después ( both) de cada grupo.

Estamos usando append como nuestro modificador, así que escribimos lo siguiente:

uniq --group = append sorted.txt | Menos

El comando "uniq --group = append sorted.txt | less" en una ventana de terminal.

Los grupos están separados por líneas en blanco para facilitar su lectura.

Salida del comando "uniq --group = append sorted.txt | less" en less en una ventana de terminal.

Comprobación de cierto número de caracteres

De forma predeterminada, uniqcomprueba la longitud completa de cada línea. Sin embargo, si desea restringir las comprobaciones a un cierto número de caracteres, puede utilizar la -wopción (comprobar caracteres).

En este ejemplo, repetiremos el último comando, pero limitaremos las comparaciones a los primeros tres caracteres. Para hacerlo, escribimos el siguiente comando:

uniq -w 3 --group = agregar sorted.txt | Menos

El comando "uniq -w 3 --group = append sorted.txt | less" en una ventana de terminal.

Los resultados y agrupaciones que recibimos son bastante diferentes.

Salida del comando "uniq -w 3 --group = append sorted.txt | less" en una ventana de terminal.

Todas las líneas que comienzan con "I b" se agrupan porque esas partes de las líneas son idénticas, por lo que se consideran duplicadas.

Del mismo modo, todas las líneas que comienzan con "I'm" se tratan como duplicadas, incluso si el resto del texto es diferente.

Ignorar cierto número de caracteres

Hay algunos casos en los que puede resultar beneficioso omitir una determinada cantidad de caracteres al principio de cada línea, como cuando las líneas de un archivo están numeradas. O digamos que necesita uniqsaltar una marca de tiempo y comenzar a verificar las líneas desde el carácter seis en lugar de desde el primer carácter.

A continuación se muestra una versión de nuestro archivo ordenado con líneas numeradas.

Un archivo numerado y ordenado de líneas duplicadas en menos en una ventana de terminal.

Si queremos uniqcomenzar sus comprobaciones de comparación en el carácter tres, podemos usar la -sopción (omitir caracteres) escribiendo lo siguiente:

uniq -s 3 -d -c numerado.txt

El comando "uniq -s 3 -d -c nudered.txt" en una ventana de terminal.

Las líneas se detectan como duplicadas y se cuentan correctamente. Observe que los números de línea que se muestran son los de la primera aparición de cada duplicado.

También puede omitir campos (una serie de caracteres y algunos espacios en blanco) en lugar de caracteres. Usaremos la -fopción (campos) para decir uniqqué campos ignorar.

Escribimos lo siguiente para decirle uniqque ignore el primer campo:

uniq -f 1 -d -c numerado.txt

El comando "uniq -f 1 -d -c nudered.txt" en una ventana de terminal.

Obtenemos los mismos resultados que obtuvimos cuando dijimos uniqque omitiéramos tres caracteres al comienzo de cada línea.

Ignorando el caso

De forma predeterminada, uniqdistingue entre mayúsculas y minúsculas. Si la misma letra aparece en mayúscula y en minúsculas, uniq considera que las líneas son diferentes.

Por ejemplo, consulte el resultado del siguiente comando:

uniq -d -c sorted.txt | sort -rn

El comando "uniq -d -c sorted.txt | sort -rn" y la salida en una ventana de terminal.

Las líneas "Creo que quitaré el polvo de mi escoba" y "Creo que quitaré el polvo de mi escoba" no se tratan como duplicadas debido a la diferencia en el caso de la "B" en "creer".

Sin embargo, si incluimos la -iopción (ignorar mayúsculas y minúsculas), estas líneas se tratarán como duplicadas. Escribimos lo siguiente:

uniq -d -c -i sorted.txt | sort -rn

El comando "uniq -d -c -i sorted.txt | sort -rn" en una ventana de terminal.

Las líneas ahora se tratan como duplicadas y se agrupan.

Linux pone a tu disposición multitud de utilidades especiales. Como muchos de ellos, uniqno es una herramienta que usará todos los días.

Es por eso que una gran parte de convertirse en un experto en Linux es recordar qué herramienta resolverá su problema actual y dónde puede encontrarla nuevamente. Sin embargo, si practicas, estarás bien encaminado.

O siempre puede buscar How-To Geek; probablemente tengamos un artículo al respecto.

Header Ads Widget

Cómo usar el comando uniq en Linux

Encontrar líneas de texto coincidentes en Linux

Ejecutando uniq sin opciones

Contando duplicados

Listar solo líneas duplicadas

Listado de todas las líneas duplicadas

Comprobación de cierto número de caracteres

Ignorar cierto número de caracteres

Ignorando el caso

Publicar un comentario

0 Comentarios

Random Posts

Información relevante

Colaboraciones

Menu Footer Widget