comprimidos

  • Anteriormente comparé los algoritmos de compresión ZIP, bzip2, gzip, RAR, LZMA y ZPAQ para tratar de determinar cuál era el mejor de ellos en término de uso de CPU, tiempo y radio de compresión, con el objetivo de lograr la máxima compresión posible. En esta ocasión voy a repetir el test, pero orientado a lograr la mayor velocidad posible (para que nuestros backups se hagan lo más rápido posible y sin demoras).

  • Luego de explicar el uso básico de zpaq, se me ocurrió llevar a cabo un pequeño experimento como comparación de rendimiento de diferentes algoritmos de compresión. Veamos un benchmark de tiempo, tamaño de archivo y uso de CPU para diferentes formatos.

  • Para descomprimir archivos 7z en GNU/Linux es necesario instalar el paquete p7zip

  • A medida que pasa el tiempo, los archivos de log (registro de errores y eventos) aumentan su tamaño considerablemente, con lo cual es recomendable implementar su rotación. Esto es, cada cierto tiempo o tamaño de archivo, guardar una copia comprimida del log y comenzar con un archivo nuevo (vacío). Ya que los archivos de log utilizan el formato de texto plano (con excepciones ridículas como los logs de eventos de Windows y journald), éstos ocupan mucho espacio. Sin embargo el formato de texto plano se puede comprimir considerablemente (se logran grandes tasas de compresión). De esta forma se ahorra espacio en disco sin perder información. Y, como efecto secundario, se organizan mejor los datos presentes en los logs, pues quedan separados por rangos de fechas.

    Esta tarea se denomina rotación porque en general se guarda un número máximo de copias (no una sola copia) del archivo de log original. Una vez que se alcanza el número máximo de copias a guardar, en cada rotación se crea un nuevo archivo comprimido y se elimina el más antiguo. Efectivamente se están eliminando los datos más antiguos, aunque es la única solución posible para mantener el uso de disco acotado. Sin embargo es altamente probable que los archivos de log se hayan enviado ya a un sistema de backup (los logs deben ser una de las principales cosas a resguardar en una copia de seguridad después de los datos propiamente dichos).

  • Un simple ayuda memoria para listar el contenido de diferentes tipos de archivos comprimidos.

  • Zip es una herramienta de compresión y empaquetamiento de archivos para Unix, VMS, MSDOS, OS/2, Windows 9x/NT/XP, Minix, Atari, Macintosh, Amiga, y Acorn RISC OS. El programa unzip se utiliza para desempaquetar y descomprimir archivos zip.

  • PAQ es una serie de algoritmos de compresión sin pérdida open source que logran las máximas tasas de compresión de archivos, a cambio de un mayor uso de memoria y CPU.

    ZPAQ es un formato estándar basado en PAQ que permite desarrollar nuevos algoritmos de compresión sin romper la compatibilidad con versiones anteriores. El formato soporta archivers, comprimir archivos simples y comprimir memoria, y logra las mayores tasas de compresión en la mayoría de los benchmarks.

    La herramienta de línea de comandos zpaq es una utilidad de compresión incremental que provee las funcionalidades necesarias para trabajar con el formato ZPAQ. Se encuentra disponible para Windows, Linux y OS/X, bajo licencias libres y open source (GPLv3). Además de su gran ventaja de ser incremental, zpaq es más rápido y logra una mayor tasa de compresión que la mayoría de las herramientas más populares, especialmente cuando se trabaja con backups reales que tienen una gran cantidad de archivos duplicados y muchos otros ya comprimidos.

  • Luego de divertirme con este comic de xkcd.com decidí escribir este breve artículo explica cómo crear y extraer archivos tar desde la línea de comandos.

  • Este artículo demuestra cómo visualizar archivos de texto sin necesidad de que sean descomprimidos previamente, gracias a los utilitarios provistos por la mayoría de los paquetes de compresión de archivos en GNU/Linux.