Posez votre question Signaler

Extraire des données des pages jaunes [Résolu/Fermé]

donna.c - Dernière réponse le 6 mars 2010 à 10:51
Bonjour,
j'aimerais extraire des données des pages jaunes pour les mettrent sur excel.
Comment faire?
Lire la suite 

Extraire des données des pages jaunes »

20 réponses
Réponse
+7
moins plus
Bonjour,

j'ai une solution intermédiaire et gratuite. Je copie des pages jaunes dans un fichier Excell. A l'aide de formules recopiées vers le bas, j'obtiens des listes. Vous pouvez me contacter par http://dobby-collection.fr et je donnerai en retour une copie de ce fichier. En retour, j'attends toutes améliorations.

Cordialement

TotoDiouf - 26 nov. 2009 à 15:11
Moi j'tutilise PageRaptor. ca e coute pas cher, parceque il ont une solution d'bonnement une semaine. ca va bien.
Boris Schmidt - 6 mars 2010 à 10:51
Oui, Le pagERaptor est bon. Ils font aussi l'Amerique du sud maintenant, c'est marrant. C'est mis à jour une fois / semaine. Pour la France il y a pagesjaunes, pagesblanches, pagespro, scoeiet.com, une demi-douzaine en tout. J'ai pris un abo d'un mois pour 20€ et j'ai même récuépré les codes NAF en plus du siret. Me rappelle plus sur lequel: pagespro je crios. Bref, c'est pas male...
Boris S.
Réponse
+0
moins plus
Salut.

Je voudrais pas faire mon rabat-joie mais :

Je viens de coder un logiciel de ce type. (récupere infos issue de pj et envoi ça dans une base de donnée=> relativement rapide et pratique). Et après avoir fini aujourd hui, testé et vu que ça marché au top !
Ben j'ai un peu déchanté :

Visiblement c'est INTERDIT !!! => Donc ça restera juste un petit développement chalenge.


En fait, j'ai fais comme vous : j'ai regardé si cela existé sur le net, j'ai vu que oui et que cela été même vendu (shareware...). Donc je me suis dit, pourquoi pas me faire un truc similaire adapté à mes besoins, et je ne me suis même pas posé la question des droits (vue que ces données sont à disposition du public et que des logiciels d'extraction pages jaunes existent déja)?

Donc, après avoir codé et testé tout ça : Je suis par hasard tombé sur ce forum :
http://forum.webrankinfo.com/prospection-pages-jaunes-t102620.html

puis sur cette pages de pages jaunes:
http://www.pagesjaunes.fr/...


"En accédant au présent site, vous reconnaissez que les données le composant sont légalement protégées et, conformément aux dispositions de la loi du 1er juillet 1998 précitée, vous vous interdisez notamment d'extraire, réutiliser, stocker, reproduire, représenter ou conserver, directement ou indirectement, sur un support quelconque, par tout moyen et sous toute forme que ce soit, tout ou partie qualitativement ou quantitativement substantielle du site auquel vous accédez ainsi que d'en faire l'extraction ou la réutilisation répétée et systématique de parties qualitativement et quantitativement non substantielles lorsque ces opérations excèdent manifestement les conditions d'utilisation normale."


Plutôt explicit. snif... Surtout que mon extraction n'a pas de but commercial à la base (pas un moteur de ciblage de propects !!!)...

Donc je ne comprend pas trop l'existence de ce type de shareware? Sont-ils dans l'illégalité la plus totale?

Enfin je comprend pas trop... Quelqu'un aurait une idée?
Si j'obtiens la preuve que c'est autorisé, jbalance mon prog en free !!! ;)

Ho!...
Je viens de voir ceci sur le site que propose FredImmobilier :
(dans le FAQ)

Est-ce légale de récupérer les données sur les annuaires... ?
Certain site signale que "l'accès au service est limité à une utilisation manuelle et tout usage de robot est interdit". AnnuCapt ne peux être considéré comme un Robot car la recherche n'est pas automatisée, c'est l'utilisateur qui va effectuer une recherche manuelle directement sur le site, le logiciel intervient uniquement pour assister l'utilisateur dans le traitement des données correspondant à sa recherche. (les logiciels qui vous proposent d'effectuer automatiquement plusieurs recherches sans intervention de l'utilisateur ne respectent pas les conditions d'utilisation de certains annuaire, c'est pour cette raison que AnnuCapt n'effectuera jamais la recherche à votre place).


Donc je ne sais tjs pas en clair...Contournement des droits d'utilisation de pj?

ben je vais peut etre reprendre mon code pour qu'il soit moins automatique. ;)
A voir ...

Donc pour l'instant j'ai pas trop fais avancé le schmilblick et un peu dévivé la conversation mais bon...

guy - 1 juin 2009 à 20:12
est ce possible d utiliser ton code, car je suis fatiguer de faire des copier coller vers excel.
merci pour ton coup de main
totsi57 - 3 juin 2009 à 15:56
Bonjour Lima31,
J'ai moi aussi essayer de faire ce programme (à caractère de challenge bien entendu ;) ) mais je bute sur quelques problèmes pourrais tu m'aider?

Merci d'avance.
Alain Cavellier - 29 janv. 2010 à 16:54
Keske c'est que ça ??? C'était déjà interdit du temps du minitel, et il y avait déjà des aspirateurs à cette époque-là. Probablement les mêmes qui font les softs sous Windows aujourd'hui. C'est des miettes pour France Télécom, faut pas se leurrer. Et pis moi j'ai besoin de pages et de données sur la francophonie. Je voudrais pas me répéter, mais PageRaptor fait tout ça. Et puis ils doivent être en Chine ou en Inde, alors... Voyez ce que je veux dire ?
Réponse
-1
moins plus
Des sociétés connues vendent ce type de logiciels.
Même la FNAC en vend un à 250 euros. Pour ce prix, je suppose qu'ils garantissent que c'est légal.


Tino

Réponse
-2
moins plus
Bonjour,

je suis également à la recherche d'un tel logiciel.
Existe t il des logiciels gratuits effectuant les mêmes opérations ?

bucheron007- 28 avril 2009 à 16:30
Personnes pour m'aider ??
Réponse
-2
moins plus
J'ai développé un logiciel qui permet d'effectuer la tâche d'extraction en c# voilà une version d'évaluation http://segmentationfault33.net/DumpPageJaune_Evaluation.exe Dans la version complete il permet soit d'exporté en csv et xlsx. Et je peut coder un module qui permet la mise à jour d'un annuaire web avec les informations récuperé.

rococco - 17 juin 2009 à 10:41
Salut young,

Pourrait tu m'envoyer un extrait de ton code car je fait exactement ce que tu as fait mai j'ai quelques soucis.
Je développe sous VB.

Merci d'avance.
y0ug - 17 juin 2009 à 13:38
Contact moi par email et dit moi sur qu'elle partie tu bloque. Tu trouvera l'adresse ici http://segmentationfault33.net je la poste pas sur le forum pour éviter les spams.
Réponse
-3
moins plus
Bonjour,

Le mieux est d'utiliser un logiciel fait pour cela. Il reconnait le format des pages jaunes, sépare les informations dans des cellules différentes (rue,ville,code postal, etc..) et vous les passe sous Excel. En quelques minutes ils peuvent prendre plusieurs centaines de correspondants.

Voir ce logiciel simple, rapide et qui permet d'autres choses :

http://logitheque.com/fiche.asp?I=27370&L=OnzeNet

Vous pouvez également le télécharger sur le site de son auteur.

A+

Réponse
-3
moins plus
Salut totsi57,

Pas de probleme si tu as besoin d'un peu d'aide.
Ou est ce que tu bute?
Pour mon appli, j'ai développé en vba access + librairie "microsoft internet controls" qui permet d'accéder directement au contenu de internet explorer.
Phase 1 : Ouverture d'un process IE caché via microsoft internet controls.
Remplissage des champs de pages jaunes en automatique à partir d'une liste de nom d'administration et département (dans une de mes tables access)-> Après dans cette table on peut un peut mettre se que l'on veut...
Le programme va donc boucler sur tout les éléments de la table et executer les requetes les unes après les autres sur pg.


Phase 2 : Recupération des Informations recrachées par pg ( via les objet de microsoft internet controls + via de la gestion de chaine de caractère (une page HTML est ni plus ni moins du texte))

Phase 3 : On caste les infos et on rempli une table annexe "resultats".

Sur quel algo es tu partis? Sous quel environnement de développement programmes tu? Et quels sont tes soucis?

Ps :Guy, il me reste encore 2 ou 3 truc a finaliser (gestion choix les plus pertinents en automatique sur les résultats pg, ihm, et gestion d'erreur ). =>J'ai stopé mon dev quand j'ai vu que cela n'était peut etre pas autorisé. Je vous tiens au courant
A+

totsi57 - 11 juin 2009 à 14:36
Bonjour Lima31,

Merci de ton aide.

Pour ma part je développe en VFP (je débute seulement).
Voilà comment je procède:

j'envoie d'abord le quoi de ma recherche et le lieu par une méthode POST je récupère la réponse du serveur sous forme de page html (rien d'autre que du texte ;)) et extrait les infos dont j'ai besoin pour les stockés dans une table DBF.

Là il faut que je passe à la page de résultat suivant et je ne sait pas du tout comment faire.
Il faudrait aussi que je traduise les caractères spéciaux (par exemple 'é'; en 'é')
Il y a peut être une fonction qui permet de faire sa?

Aurais tu une idée?

Merci d'avance.
max99 - 11 déc. 2009 à 19:48
Est-ce que ton appli est dispo? Ou trouver 'liste de nom d'administration et département '? Ensuite comment on peut remplir champs de pages jaunes en automatique? Est-ce que il faut utiliser la gestion de chaine de caractère pour trouver et remplir les champs page jaunes? Ou juste envoyer en POST?

Merci,
Réponse
-3
moins plus
Bonjour,

Oula, vfp? A tes souhaits! ;) Non, je ne peux pas t'aider je ne connais pas du tout ce langage (visual fox pro je suppose..)

J'ai eu le même p^robleme que toi pour recuperer le texte bien formaté. Il faut donc remplacer les occurences de 'é'; par des 'é' => texte= replace(texte,"'é';","é") en vba,
Et : texte=STRTRAN(texte,"'é';","é") en vfp visiblement...

Et évidement effectuer cette opération pour tout les caractères spéciaux rencontrés.
caracteres spéciaux notation html http://www.cs.tut.fi/~jkorpela/HTML3.2/latin1.html

Pour passer à la page web suivante ...pas d'idée en vfp

A+

totsi57 - 12 juin 2009 à 00:29
Merci beaucoup sa marche nickel le strtran.

Par contre je n'ai toujours pas trouver pour la page web suivante. Pourrait tu m'envoyer ton code en vb pour que je vois ta logique. Apparement VB est mieux pour coder ce genre de chose j'y jetterais un coup d'oeil.

Merci pour ton aide.
Réponse
-473
moins plus
Salut,

j'ai cherché moi aussi un logiciel qui permet de collecter les info sur les pages jaunes (ras le bol du copier/coller) pour l'utiliser avec mon logiciel de mailing, j'en ai testé plusieurs et mon choix c'est porté sur Annucapt (http://www.annucapt.com)

Il permet la capture sur les pages jaunes, pro et les pages blanches, tu peux saisir plusieurs recherches à la suite et le logiciel s'occupe de du reste (pratique quand tu as beaucoup de recherche à faire).

Ce que tu as capturé peut être exporté dans plusieurs formats (Excel, open office calc, Word, texte, csv, Outlook...).

Au fait c'est un shareware, tu peux donc le télécharger et tester si il te convient.

Bon courage.

PS : si le lien précédent ne fonctionne pas tu peux essayer sur ce site http://www.ebsoft.net

Ce document intitulé « extraire des données des pages jaunes » issu de CommentCaMarche (www.commentcamarche.net) est mis à disposition sous les termes de la licence Creative Commons. Vous pouvez copier, modifier des copies de cette page, dans les conditions fixées par la licence, tant que cette note apparaît clairement.
Dossier à la une
Passage au tout numérique : quel coût pour les particuliers ?