Extraction de données dans plusieurs documents

Fermé
El_Pablo Messages postés 5 Date d'inscription mercredi 16 novembre 2005 Statut Membre Dernière intervention 24 août 2016 - 30 mars 2016 à 00:21
georges97 Messages postés 11877 Date d'inscription lundi 31 janvier 2011 Statut Contributeur Dernière intervention 11 mai 2024 - 30 mars 2016 à 08:40
Bonjour,

J'aimerais savoir comment s'y prendre pour extraire de l'information automatiquement dans plusieurs documents PDF. L'information est pseudo-structurée à l'intérieur des documents. Je dis pseudo, car l'information principale se retrouve à peu près au même endroit dans les documents, mais avec des formulations qui peuvent différer un peu.

Plus précisément, il s'agit d'actes notariés de ventes d'immeuble dans lesquels on peut y retrouver les noms des acheteurs et vendeurs, l'adresse des immeubles, le prix de vente, etc.

Je crois que ceci s'approche du "data mining", mais est-ce vraiment le cas? Y a-t-il des logiciels que vous connaissez et qui fonctionne avec du texte en français? Y a-t-il des spécialistes d'extraction de données qui pourraient me guider?

Merci


1 réponse

georges97 Messages postés 11877 Date d'inscription lundi 31 janvier 2011 Statut Contributeur Dernière intervention 11 mai 2024 2 266
Modifié par georges97 le 30/03/2016 à 08:54
Bonjour,

Le datamining met en œuvre des logiciels dédiés et et de ce fait chers. Si vous êtes à l'origine de ces documents, ou si vous pouvez demander la coopération des émetteurs, il vaudrait mieux récupérer les données à partir d'une base de données (Access ou Base de la suite gratuite Libre Office) avant de les archiver au format PDF.

Ou alors, il faudrait regarder du côté d'un langage de programmation comme python avec des méthodes dites de parsing :

https://python.doctor/page-xml-python-xpath


Vous pouvez sans doute aussi regarder du côté de logiciels comme Bullzip PDF Writer qui, dans leur descriptif, intègrent des outils de script VBA pou VBsciipt et dont l'éditeur dispose d'outils MySQL.

https://www.bullzip.com/index.php

Cordialement
0