A voir également:
- Extraction des phrases contenant une structure donnée
- Extraction video youtube - Guide
- Logiciel calcul structure bois gratuit - Télécharger - Architecture & Déco
- Logiciel de recuperation de donnée - Guide
- Que veut dire ^^ a la fin d'une phrase ✓ - Forum Mail
- Germain veut gérer les activités de son association avec une base de données. il a commencé à créer des tables dans un fichier, mais il n’est pas sûr du résultat. le fichier à télécharger contient uniquement le schéma de cette base de données. en l’état actuel, que peut-on en déduire ? - Forum Outlook
1 réponse
[Dal]
Messages postés
6174
Date d'inscription
mercredi 15 septembre 2004
Statut
Contributeur
Dernière intervention
2 février 2024
1 083
19 févr. 2015 à 10:47
19 févr. 2015 à 10:47
Bonjour fp,
Dans ta ligne d'exemple :
- que représentent les
- les lettres
- les lettres
- l'ensemble formé par
Dal
Dans ta ligne d'exemple :
???|KP ??|VB ???|AA ??|PP ????????|NN ???|PN ??|PN ???|NN
????|NN ?|
- que représentent les
???et
??qui suivent l'espace après
VBet
AA, est-ce
???pour 3 caractères et
??pour 2 caractères, ou est-ce que cela peut être autre chose ?
- les lettres
VBet
AAsont-elles toujours immédiatement précédées de
|?
- les lettres
VBet
AAsont-elles toujours immédiatement suivies d'un espace
- l'ensemble formé par
|VB ???|AA ??|doit-il toujours être consécutif sur la ligne, ou le
|VB ???et le
|AA ??|peuvent-ils se trouver séparés
Dal
19 févr. 2015 à 12:38
Merci
19 févr. 2015 à 13:30
tu dis désormais " Je recherche que les phrase qui ont au moins une fois le AA."
c'est différent de ce que tu disais dans ton post initial, où tu disais : "je voudrais extraire uniquement les phrases qui ont la structure VB (le mot) pui AA (le mot)"
si ce que tu veux c'est vérifier, pour une ligne donnée, si elle contient "|AA " (barre verticale puis AA, puis espace), tu peux le faire, par exemple comme cela :
Le caractère est échappé car il a une signification particulière dans la regexp (il signifie "ou").
Le et l'espace sont à utiliser s'il faut éviter de matcher accidentellement AA utilisé autrement (dans les xxx, par exemple, ou ailleurs sous une forme ou une autre). Si ce risque n'existe pas, tu peux juste matcher AA comme cela : sans rien d'autre.
Si tu veux autre chose, stp exprime le en disant très exactement ce que tu veux matcher.
Dal
19 févr. 2015 à 13:53
Alors, oui, je voudrai en effet extraire toutes les phrases qui ont au moins une fois AA (car dans mon corpus, le AA apparaît essentiellement après le VB) en modifiant les choses suivantes: suppression de tous les saut de ligne et rajoutant un saut de ligne après une étiquette |SM (comme cette étiquette marque la fin de phrase).
19 févr. 2015 à 14:24
tes "phrases" de départ sont dans un tableau, dans une variable comportant des retours à la ligne, ou traites tu ligne par ligne un fichier ?
Modifié par fp le 19/02/2015 à 14:42
????|NN ?|SM (lecture de droite à gauche)
(Je ne sais pas pourquoi les mots apparaits en car ?, je suppose que ? signifie un caractère. Ce sont des lettre du block arabe).
Mon corpus a plusieurs phrases (5.4 millions) mélanger (défois l'étiquette AA n'est pas présent). Ce que je voudrai faire, c'est de extraire en sortie à partir du corpus les phrases qui ont l'étiquette AA.
Mes phrases sont en texte brut dans un fichiers et je voudrai faire une mise en forme en supprimant les saut de ligne et ajouter un saut de ligne après chaque SM, l'étiquette qui permet de distinguer la fin de phrase.
Merci