Liste des 404 de GoogleBot à partir des logs d'accès nginx
Rédigé par Cdillat
- 15 octobre 2014
- 4 commentaires
Aujourd'hui, je vais partager une petite ligne de commande linux qui permet de classer par ordre décroissant les 404 rencontrées par Google lors de son crawl. Les 404 les plus fréquentes sont affichées au début de la liste.
La commande bash
cat /var/log/nginx/access.log | egrep "HTTP/1\.[01]\" 404" | egrep "Googlebot" | cut -d '"' -f2 | cut -d ' ' -f2 | sort | uniq -c | sort -r
Petite explication de la commande :
-
cat /var/log/nginx/access.log
-
Affiche le contenu du log nginx
-
egrep "HTTP/1\.[01]\" 404"
-
Sélectionne uniquement les 404
-
egrep "Googlebot"
-
Sélectionne uniquement les pages appelées par GoogleBot
-
cut -d '"' -f2 | cut -d ' ' -f2
-
Petit micmac pour récupérer uniquement les chemins relatifs des urls
-
sort
-
Tri pour permettre à la commande uniq de faire son boulot
-
uniq -c
-
Compte les occurrences d'une même url et affiche le total à cotés
-
sort -r
-
Tri afin d'avoir les urls les plus fréquentes en premier
Classé dans : Outils Seo - Mots clés : aucun