Mission de l'impossible avec INDEX+EQUIV ou autre

Fermé
lilboudo - 29 juil. 2015 à 01:07
 lilboudo - 29 juil. 2015 à 21:55
Bonjour,

Données: http://www.cjoint.com/c/EGCxbkIwaf1

Avec C==INDEX(B:B;EQUIV(D2;A:A;0)), ca retourne #N/A, évidemment parce qu'il n'y a pas de correspondance exacte entre les éléments des colonnes A et D; toutefois, les deux colonnes contiennent des noms de produits qui se ressemblent, i.e. qui partagent des mots clés communs.

Mission de l'impossible qui me tracasse depuis deux jours: quelle formule/astuce trouver pour retrouver "Mes codes", en indiquant à Excel d'utiliser des valeurs approchées pour comparer les TEXTES, par exemple retenir le code si deux textes partagent trois mots clés?

Pour des chiffres, on peut utiliser des valeurs approchées (C==INDEX(B:B;EQUIV(D2;A:A;1 ou -1)), mais avec le texte...

Merci à toute personne qui aurait une idée...

Cdt

Laurent

2 réponses

JvDo Messages postés 1978 Date d'inscription mercredi 27 juillet 2005 Statut Membre Dernière intervention 28 septembre 2020 856
29 juil. 2015 à 04:32
bonjour,

tes données ne sont pas fiabilisées.

On trouve des :
__SOUS FORMESPRIMAIRES
__EGALE OU SUPE RIEURE
__SOUS FORMES PRIMAI RES
__LIQUIDESHYDRAULIQUES,
__Autres poissons congels
__Vtement et acces chauss. et coiff. en am ou en mel. d'am. et de carb. de mg

et ça, sur un simple écran.
Donc comment traiter un tel amas de données?

Ensuite, tu parles de mots clés. Où sont-ils?

cordialement
0
Bonjour,

c'est ca justement mon problème. Ce sont des statistiques.... officielles d'un pays, pour lesquelles il faut trouver les codes SH. Un vrai casse tete!
0
JvDo Messages postés 1978 Date d'inscription mercredi 27 juillet 2005 Statut Membre Dernière intervention 28 septembre 2020 856
29 juil. 2015 à 17:43
Bonjour,

Je suppose que les stats du pays sont en colonne D. (quel pays au fait?)

En revanche, tu peux importer une nomenclature HS (colonne A et B) de meilleure qualité il me semble.
Ça sera déjà un bon début.

1) Côté nomenclature :

la nomenclature gère des exclusions :
"sauf ....", "exclus....", "non .....", "ni ...", "autre que ..."

ex : "non de race pur", "sauf reproducteurs", "autre que semence", "NON BROYES NI MOULUS NI SOUS FORME DE PELLETS", "A LEXCLUSION DE LA MARGARINE LIQUIDE"," A LEXCLUSDE CELLESDU N1516", "A LEXCEPT DUSACCHAROSE"

certaines exclusions sont indirectes : "A LEXCLU DU N 3501", "AUTRES ARTICLES DU N 3606"

la nomenclature gère des seuils :
"PLUS DE 5 KG", "5 KG OU MOINS", "EXCEDANT 2KG", "NEXCEDANT PAS 20", " EXCEDANT 2 LITRES", "NEXCEDANT PAS 1", "DONT LA DIMENSION DAU MOINS UN COTE EXCEDE255 MM", "EXCEDANT 60 CM MAIS NEXCEDANT PAS 180 CM", "NEXCEDANT PAS 8 KG LORSQUILS SONT SECS, 10KG LORSQUILS SONT SALES SECS ET 16KG LORSQUILS SONT FRAIS, SALES, VERTS OU AUTREMENT CONSERVES"


pas simple à gérer.
D'ailleurs, que faut-il réellement gérer?


2) Côté "Mes intitulés"

certaines lignes ne contiennent pas d'information produit :
"Autres", "Autres chairs", "Grs", "Parties", "Produits divers", "Epaisseur > 3 et < 4,75 mm"

il y a une quantité astronomique de "variantes de saisie" :
"végatales", "vegetale", "végétale", "vegetales", "végétales"
"sup", "super", "supér", "superieur", "Supérieur"
"simil", "simila", "similai", "similaire", "similaires"


3) Comment faire....


3.1) trouver les mots clés de "mes intitulés"
j'ai cru un instant qu'il suffisait d'extraire les mots de ta colonne "mes intitulés", d'en supprimer les mots "non clés" comme les conjonctions, les pronoms, les valeurs numériques, et les doublons, pour obtenir une liste de mots clés par item.
Cette liste aurait été comparée avec chaque entrée de la nomenclature et aurait permis de trouver le ou les codes les plus pertinents (sur la base du nombre de correspondances).

cette façon de faire est assez facile (il y a des fonctions toutes faites dans Morefunc), mais ....
les formules n'ont pas l'intelligence du sujet sur lequel elles opèrent.
ainsi, le mot "autre" qui intervient aussi bien dans "autre que ..." que dans "Autre projecteur" n'a pas la même légitimité à être un mot clé.
initialement, j'avais supprimé tous les "autres" rencontrés mais ce n'était pas la bonne approche.

J'ai quand même poussé la recherche un peu plus loin et j'obtenais environ 2 400 mots-clés réduits à 2 000 après élimination des pluriels.

Remarque : un travail comme ça permet de fiabiliser les données. On identifie les mots à corriger (il y en a au moins 1 000 !!!!).
C'est presqu'autant de mots-clés en moins.

3.2) trouver les mots clés de la nomenclature
Si on imagine que les mots clés ont été identifiés pour "mes intitulés", il faut en faire autant avec la nomenclature.

Commence par en utiliser une "propre", puis extrais les mots-clés et fiabilises.

3.3) rapprocher les mots clés de chaque base
A partir de là, tu pourras compter le nbre de mots-clés qu'un item de "mes intitulés" a en correspondant avec ceux de chaque item de ta nomenclature.
Tu lui affecteras alors le code qui correspond au max de ces nbres.


3.4) au fait pourquoi passer par les mots clés pour nomenclature?
En effet, pourquoi ne pas faire une simple recherche des mots clés d'un item de "mes intitulés" dans la base nomenclature?

D'abord parce que les mots clés peuvent être des parties de mots d'un libellé de la nomenclature. Tu risquerais ainsi de trouver le mot-clé "noir" dans un libellé qui contient "baignoire".

Ensuite parce que la nomenclature est en piteux états et que le travail de fiabilisation par les mots clés est nécessaire, de mon point de vue bien sûr.


Tu as donc un gros boulot devant toi.
Il faut peut-être s'assurer que ça en vaut la peine.
Si oui, il faudra aussi revisiter le processus de saisie des données qui aboutissent à ces stats pour éviter d'avoir à refaire ce travail à chaque fois.

cordialement
0
Bonjour,

Merci JvDo pour ces efforts. Je crois avoir trouvé une solution par défaut; ramené à 4 chiffres, il y a une correspondance entre le SH du pays avec le SH de la nomenclature voulue. Les intitulés des produits ne sont plus les mêmes (au détail comme c'était le cas), mais on retrouve la nature du produit en question.
Par exemple,
102109000 Bovins reproducteurs de race pure autres que taureaux
devient:
1021 ANIMAUX VIVANTS DE L'ESPECE BOVINE REPRODUCTEURS DE RACE PURE.

Autre exemple:
105110000 Coqs et poules vivants,d'un poids n'excedant pas 185 g
devient
1051 COQS ET POULES VIVANTS DES ESPECES DOMESTIQUES D'UN POIDS N'EXCEDANT PAS 185G

Il semble y avoir des correspondances.... donc, je vais adopter la solution.

Encore merci pour les efforts!

Laurent
0