Moteur de recherche [Résolu/Fermé]

Signaler
Messages postés
4
Date d'inscription
vendredi 1 février 2008
Statut
Membre
Dernière intervention
10 février 2008
-
Amineos21
Messages postés
4
Date d'inscription
vendredi 1 février 2008
Statut
Membre
Dernière intervention
10 février 2008
-
Bonjour,
Je souhaite créer un moteur de recherche pour l'obtention du titre de master en informatique de systeme et multimedia.
Je recherche alors des info sur les algorithmes d'extraction de données à partir des sites web (recherche dans le contenu des pages web).
tt aide me sera tres utiles.
merci a l'avance.

Pour me contacter sur email: fatnassiamine@hotmail.fr

merci encore.

7 réponses

Messages postés
1
Date d'inscription
lundi 21 janvier 2008
Statut
Membre
Dernière intervention
1 février 2008

L'avantage de la logique de programmation appeler autremendite ALGO, ce subdivise en grandes parties essentielles entre autre trois séquence à savoir :

1. Séquence debut programme;
2. Sésuence traitement;
3. Séquence fin programme.

pour les explications de ces trois séquence àprès.

Bonne compréhension

C'était Marcel Analyste Programmeur
Messages postés
289
Date d'inscription
jeudi 6 décembre 2007
Statut
Membre
Dernière intervention
12 juin 2008
31
pour un spider ou crawler : on download chaque page et on l'analyse soit tout manuellement, soit avec SOM/SAX, pour trouver des liens que L'on poursuit ensuite (cad on va chercher toutes les pages réfénciées et ensuite les analyser et ensuite...)
à part de ca il y a aussi les feeds RSS qui permettent p.ex. d'avoir le cours de la bourse.
Messages postés
4
Date d'inscription
vendredi 1 février 2008
Statut
Membre
Dernière intervention
10 février 2008

Merci bocou pour les reponses.

Alors maintenant j'ai un autre prob.

j'ai ecrit un petit code qui prend en entrée une adresse URL et je veut ouvrir le dossier racine de cette URL (bien sur deja existante sur un serveur distant) afin de le parcourir pour extraire les info. dont j'ai besoin pour mon moteur de recherche.

Mais le probleme est que je ne parvient pas a me pointer sur le dossier racine.

merci pour l'aide.
Messages postés
289
Date d'inscription
jeudi 6 décembre 2007
Statut
Membre
Dernière intervention
12 juin 2008
31
si ce n'est pas ton propre serveur il est très probable que tu n'a pas d'accès (configuration par défaut)
Messages postés
4
Date d'inscription
vendredi 1 février 2008
Statut
Membre
Dernière intervention
10 février 2008

Si je ne peut pas acceder alors comment je peut obtenir l'arborescence d'un site web quelconque, bien sur qui n'est pas le mien.

merci a l'avance.
Messages postés
289
Date d'inscription
jeudi 6 décembre 2007
Statut
Membre
Dernière intervention
12 juin 2008
31
ben, tu ne peux pas. mais tu peux parser les <img>, <script>, etc. cela te donne déjà une idée. éventuellement tu trouves aussi un site map. ce serait en gros ce que tu cherches, non ?
Messages postés
4
Date d'inscription
vendredi 1 février 2008
Statut
Membre
Dernière intervention
10 février 2008

Merciiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii bien phil tu m'a vrément donner le coup de pouce qui me manqé.

maintenant, je peut extraire les liens d'une page et ainsi parvenir a retracer l'arborescence du site.

merci infinément.

Quand je termine le code je vé vous donner l'exemple.

peut etre bien ca peut aider qq'un d'autre.

merci encore.