cdillat

Liste des 404 de GoogleBot à partir des logs d'accès nginx

Rédigé par Cdillat - 15 octobre 2014 - 4 commentaires

Aujourd'hui, je vais partager une petite ligne de commande linux qui permet de classer par ordre décroissant les 404 rencontrées par Google lors de son crawl. Les 404 les plus fréquentes sont affichées au début de la liste.

La commande bash

cat /var/log/nginx/access.log | egrep "HTTP/1\.[01]\" 404" | egrep "Googlebot" | cut -d '"' -f2 | cut -d ' ' -f2 | sort | uniq -c | sort -r

Petite explication de la commande :

cat /var/log/nginx/access.log
Affiche le contenu du log nginx
egrep "HTTP/1\.[01]\" 404"
Sélectionne uniquement les 404
egrep "Googlebot"
Sélectionne uniquement les pages appelées par GoogleBot
cut -d '"' -f2 | cut -d ' ' -f2
Petit micmac pour récupérer uniquement les chemins relatifs des urls
sort
Tri pour permettre à la commande uniq de faire son boulot
uniq -c
Compte les occurrences d'une même url et affiche le total à cotés
sort -r
Tri afin d'avoir les urls les plus fréquentes en premier

Classé dans : Outils Seo - Mots clés : aucun

Écrire un commentaire

Attention ! Les commentaires sont soumis à modération.

4 commentaires
Xav

mercredi 15 octobre 2014 à 11:01 Xav a dit : #1

Et le awk :( ?

Cdillat

mercredi 15 octobre 2014 à 11:17 Cdillat a dit : #2

@Xav : Euh j'ai pas utilisé awk :D

Xav

mercredi 15 octobre 2014 à 11:23 Xav a dit : #3

awk '$0~/Googlebot/ {print $7}' mon_fichier.txt | head

thierry

vendredi 14 novembre 2014 à 04:26 thierry a dit : #4

@AgileHackers @respiland

cool tes commandes
Je prends
Je te renvoi la pareil + tard si tu veux