Por culpa del referral spam, ya no es posible confiar en los datos relacionados a fuentes de tráfico provistos por Google Analytics. Al menos ya no es una fuente de datos confiable y precisa, pues nuestras cuentas de Analytics están plagadas de spam.

Cabe recordar que el referral spam en cuentas de Google Analytics no afecta al sitio Web, es decir no se trata de tráfico hacia nuestro sitio, sino que es tráfico malicioso hacia los servidores de Google que recopilan datos para Analytics. Por ello, si necesitamos datos confiables acerca del tráfico efectivo hacia nuestro sitio Web, no queda otra alternativa que extraerlos desde los logs de acceso del servidor Web, ya sea Apache, Nginx u otro.

Siempre que el log de accesos del servidor Web utilice el formato Combined Log Format (por defecto en Apache/Nginx), el cual registra el referer (desde qué sitio proviene la visita) para cada acceso, es posible obtener un lsitado de todos los referers con el siguiente comando:

cut -d'"' -f4 access*log

Es decir, obtener sólo la cuarta columna de cada línea del archivo de log de accesos, separada por comillas dobles.

Luego es necesario eliminar nuestro propio dominio de los resultados (en este caso "linuxito.com") y eliminar aquellas entradas que no incluyen referer (por ejemplo, tráfico directo) "-":

cut -d'"' -f4 access*log | grep -v "linuxito.com\|-"

Finalmente, ordenar los resultados y generar el ranking con sort y uniq:

cut -d'"' -f4 access*.log | grep -v "linuxito.com\|-" | sort | uniq -c | sort -nr

Por ejemplo:

root@linuxito:/usr/local/nginx/logs# cut -d'"' -f4 access*.log | grep -v "linuxito.com\|-" | sort | uniq -c | sort -nr | head -n 30
  13480 https://www.google.es/
   7790 https://www.google.com.mx/
   3291 https://www.google.com.co/
   3229 https://www.google.com/
   3059 https://www.google.com.ar/
   2642 https://www.google.cl/
   1845 https://www.google.com.pe/
   1763 https://www.google.co.ve/
   1501 https://www.google.com.ec/
   1238 https://www.google.es
    790 https://www.google.com
    694 https://www.google.com.mx
    604 https://www.google.com.bo/
    367 https://www.google.com.py/
    357 https://www.google.com.uy/
    338 https://www.google.co.ve
    316 http://planetlibre.es/
    296 https://www.google.com.sv/
    290 https://www.google.com.gt/
    275 https://www.google.com.ar
    261 https://www.google.com.do/
    252 http://m.facebook.com/
    208 https://www.google.com.br/
    206 https://www.facebook.com/
    191 https://www.google.com.ni/
    181 https://duckduckgo.com/
    169 https://www.bing.com/
    157 https://www.google.hn/
    144 http://www.google.es/
    130 https://www.google.com.cu/

¿Ahora entienden por qué le vendí el alma a Google desde hace años?

Filtrar por fecha

Si se desea filtrar una fecha específica, será necesario hacerlo antes de recortar la columna con cut, por ejemplo:

root@linuxito:/usr/local/nginx/logs# grep "24/Nov" access* | cut -d'"' -f4 | grep -v "linuxito.com\|-" | sort | uniq -c | sort -nr | head -n 30
    893 https://www.google.es/
    633 https://www.google.com.mx/
    264 https://www.google.com.co/
    240 https://www.google.com/
    200 https://www.google.com.ar/
    197 https://www.google.cl/
    149 https://www.google.co.ve/
    120 https://www.google.com.pe/
    108 https://www.google.com.ec/
     95 https://www.google.es
     57 https://www.google.com.mx
     56 https://www.google.com.bo/
     55 https://www.google.com
     46 http://www.google.es/
     38 https://www.google.com.py/
     33 https://www.google.com.uy/
     22 https://www.google.com.gt/
     22 https://www.google.co.ve
     18 https://www.google.com.sv/
     18 http://www.google.com
     18 http://planetlibre.es/
     18 http://m.facebook.com/
     17 https://www.google.com.ar
     16 https://www.facebook.com/
     15 https://www.google.com.do/
     15 https://duckduckgo.com/
     12 https://www.google.com.cu/
     12 https://www.bing.com/
     12 http://regnum.by/
     11 https://www.google.com.br/

La mejor fuente de tráfico hacia este sitio (quitando a Google) es planetlibre.es, la excelente herramienta desarrollada y mantenida por el colega Jesús Camacho, la cual agrupa todos los artículos de la blogosfera linuxera hispanoparlante (el planeta cuenta actualmente con nada más y nada menos que 61 blogs).


Tal vez pueda interesarte


Compartí este artículo