Séquences de mots récurrents dans un texte

Résolu/Fermé
asppdf2 Messages postés 5 Date d'inscription dimanche 7 juillet 2019 Statut Membre Dernière intervention 8 juillet 2019 - 7 juil. 2019 à 19:15
Aliboron Martin Messages postés 3440 Date d'inscription samedi 1 janvier 2011 Statut Contributeur Dernière intervention 18 avril 2024 - 8 juil. 2019 à 23:10
Bonjour,

Le problème pour lequel je sollicite votre aide est un problème classique mais, malgré le grand nombre de sujets dans tous les forums que j'ai pu trouver, je n'arrive pas à trouver quelque chose qui marche.

Dans mon texte, j'aimerais trouver les séquences de mots qui reviennent plusieurs fois. Les séquences de mots, pas les mots. C'est-à-dire que j'aimerais savoir si par mégarde je n'ai pas inséré plusieurs fois la même phrase ou le même paragraphe. La difficulté est que je ne sais pas quelles pourraient être ces séquences, et je ne peux pas le faire manuellement puisque mon texte fait 400 000 mots. En particulier, il est trop long pour le faire en ligne, j'ai déjà essayé.

Toute méthode simple et efficace est la bienvenue, même si elle est artisanale et laborieuse.

(Je suis sur mac Mojave).

Merci d'avance !

5 réponses

asppdf2 Messages postés 5 Date d'inscription dimanche 7 juillet 2019 Statut Membre Dernière intervention 8 juillet 2019 2
8 juil. 2019 à 21:22
Bonsoir,

Finalement, après beaucoup de recherches, j'ai trouvé un site en ligne qui fait ce que je cherche.

https://www.dcode.fr/phrase-counter

Bonne soirée à tous !
2
Aliboron Martin Messages postés 3440 Date d'inscription samedi 1 janvier 2011 Statut Contributeur Dernière intervention 18 avril 2024 927
8 juil. 2019 à 23:10
0
dede74000 Messages postés 26978 Date d'inscription jeudi 5 avril 2007 Statut Contributeur Dernière intervention 19 janvier 2024 5 344
Modifié le 7 juil. 2019 à 20:50
Bonsoir,

Je ne sais pas si c'est possible mais, il ne coûte rien d'essayer:
Tu sélectionnes et copies un groupe de mots et, avec EasyFind, tu fais une recherche avec ce groupe de mots, en le mettant, peut-être, entre guillemets, qu'est-ce que ça dit ?
Je n'ai pas de documents, de la taille de ton texte, pour faire un test, c'est peut-être même idiot d'avoir pensé à ça ;-)

Je sais que, dans Word, il y a une solution avec un mot, je ne sais pas si, dans les dernières versions ça peut être fait avec un groupe de mots.
0
asppdf2 Messages postés 5 Date d'inscription dimanche 7 juillet 2019 Statut Membre Dernière intervention 8 juillet 2019 2
7 juil. 2019 à 20:59
Bonjour dede74000,

Merci pour votre réponse, mais mon document fait 500 pages pour 400 000 mots; je ne peux pas le faire manuellement. Le programme que je cherche identifierait des chaines récurrentes de plusieurs mots, afin que je puisse identifier des paragraphes récurrents.
0
Aliboron Martin Messages postés 3440 Date d'inscription samedi 1 janvier 2011 Statut Contributeur Dernière intervention 18 avril 2024 927
7 juil. 2019 à 23:35
Il existe des outils sous Windows qui font cette recherche de répétition d'expression (par exemple Répétition Detector 2 mais je n'en connais pas sous macOS.

Il existe bien des solutions pour détecter les répétitions de mots, comme la macro proposée sur cette page (fonctionne sans soucis dans Word 2019, attention au correctif apporté dans les commentaires) ou Antidote. Mais pour des expressions, je ne vois pas.
0
asppdf2 Messages postés 5 Date d'inscription dimanche 7 juillet 2019 Statut Membre Dernière intervention 8 juillet 2019 2
8 juil. 2019 à 09:10
Oui c'est vraiment pour les expressions que j'ai besoin d'un outil, et c'est curieusement très difficile de trouver quelque chose qui le fasse. :-)
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
asppdf2 Messages postés 5 Date d'inscription dimanche 7 juillet 2019 Statut Membre Dernière intervention 8 juillet 2019 2
8 juil. 2019 à 11:22
Une précision: j'ai oublié de vous dire que les séquences de mots ne sont pas nécessairement placées l'une à-côté de l'autre, mais peuvent être à des pages complètement différentes.
0