Commande GREP ou autres pour parser des logs d'Apache.Résolu/Fermé

Question

Bonjour, 

J'ai fait un GREP sur le log "access.log" d'Apache de cette manière pour avoir les HITs (pages servies) en excluant les BOTs

cat access.log | egrep -v "Googlebot|bingbot|Applebot"  |wc -l

Je souhaiterais faire la même recherche mais cette fois sur une plage horaires.

Par exemple pour  trouver le nombre d'entrées entre  17/Sep/2021:08:13:48 et 17/Sep/2021:16:11:01.

Contenu du fichier access.log
[17/Sep/2021:08:13:48 +0200] "GET /auto----[17/Sep/2021:16:11:00 +0200] "GET /tro

Une idée de la commande à saisir ou à utiliser?

Merci


Configuration: Linux / Brave

acefalo · Answer

Bonjour, Si ton access.log est classé par heure d'accès, awk devrait faire l'affaire. $4 = 4e colonne, séparateur par défaut = 'espace', && = opérateur AND awk '$4 >= "[17/Sep/2021:08:13:48" && $4 <= "[17/Sep/2021:16:11:00"' access.log | wc -l Exemple d'une entrée de log fonctionnant avec ce script : 127.0.0.1 - - [17/Sep/2021:08:13:48 -0300] "GET / HTTP/1.0" 200 2216 Tes entrées de log ont-elles cette forme? Si cela ne fonctionne pas, tu peux fournir une ligne complète de log anonymisée. Si ton log à cette forme (exemple, débute par [17/Sep): [17/Sep/2021:08:13:48 +0200] "GET /auto Tu peux utiliser awk de cette manière : awk '$1 >= "[17/Sep/2021:08:13:48" && $1 <= "[17/Sep/2021:16:11:00"' access.log | wc -l Sources : Log Samples from Apache https://www.ossec.net/docs/log_samples/apache/apache.html grep an accesslog(apache) file within a specific time period https://gist.github.com/sheeplogh/3421464

mamiemando · Answer

Bonjour,

Voici comment tu pourrais faire en python3 :

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import datetime, re, sys

RE_APACHE = re.compile(".*$$(.*)$$.*")

if len(sys.argv) != 4:
    print(f"usage: {sys.argv[0]} input_log date_min date_max", sys.stderr)
    sys.exit(1)

def parse_date(date):
    return datetime.datetime.strptime(date, "%d/%b/%Y:%H:%M:%S %z")

filename = sys.argv[1]
date_min = parse_date(sys.argv[2])
date_max = parse_date(sys.argv[3])
assert date_min <= date_max
    
with open(filename) as f:
    for line in f:
        m = RE_APACHE.match(line)
        if not m:
            continue
        date = parse_date(m.group(1))
        if date_min <= date <= date_max:
            print(line.strip())

Sauve ça dans un fichier (disons toto.py)

En gros, on cherche les lignes qui contiennent un timestamp (donc, qui ont un truc entre crochets) avec l'expression régulière RE_APACHE. Note que l'expression régulière permet de s'affranchir de la position du timestamp dans la ligne, on fait uniquement l'hypothèse qu'il est entre crochet.

Pour chaque ligne du log, si la date extraite est comprise entre les deux autres dates passées en paramètres du programme, on écrit la ligne (sinon on l'ignore). 

Pour lancer le programme, lance dans ton terminal :

python3 toto.py apache.log "20/Sep/2021:07:57:00 +0000" "20/Sep/2021:07:58:00 +0000"

Bonne chance

dubcek · Answer

hello
on convertit les dates en secondes
on convertit la chaine pour être compatible avec date -d ...
JJ/Mmm/AAAA:HH:MM:SS devient JJ-Mmm-AAAA HH:MM:SS

d1="17/Sep/2021:08:13:48"; t1=${d1////-}; t1=${t1/:/ }; t1=$(date -d "$t1" +%s)d2="17/Sep/2021:16:11:01"; t2=${d2////-}; t2=${t2/:/ }; t2=$(date -d "$t2" +%s)awk -F "[][]|[ ]" -v t1=$t1 -v t2=$t2 '{x=$2; gsub("/", "-", x); sub(":", " ", x); "date -d \"" x "\" +%s" | getline t}; t >= t1 && t <=t2  {print $0}'  access.log

pcsystemd · Answer

Merci a tous pour votre temps et vos solutions.
 
@mamiemando
Je n'ai pas la version 3 de Python du coup je vais voir si cela fonctionne avec ma version 2.7.9!

@dubcek
J'ai l'erreur suivante  :

d1="21/Sep/2021:13:13:48"; t1=${d1////-}; t1=${t1/:/ }; t1=$(date -d "$t1" +%s)d2="21/Sep/2021:14:01:01"; t2=${d2////-}; t2=${t2/:/ }; t2=$(date -d "$t2" +%s)awk -F "[][]|[ ]" -v t1=$t1 -v t2=$t2 '{x=$2; gsub("/", "-", x); sub(":", " ", x); "date -d \"" x "\" +%s" | getline t}; t >= t1 && t <=t2  {print $0}'  access.log/bin/sh: 1: Syntax error: Unterminated quoted string

dubcek · Answer

vérifier qu'il ne manque pas de "
awk -F "[][]|[ ]" -v t1=$t1 -v t2=$t2 '{x=$2; gsub("/", "-", x); sub(":", " ", x); "date -d \"" x "\" +%s" | getline t}; t >= t1 && t <=t2  {print $0}'  access.log

ou essayer avec gawk

pcsystemd · Answer

Ok merci. Je vais tester.

Commande GREP ou autres pour parser des logs d'Apache.

6 réponses

Discussions similaires

Newsletters