Bonjour,
je ss un étudiant en informatique ,j'ai un probleme avec un projet de analyse de texte ;(méthode(s)) et ses limites afin de determiner ce que vous devez programmer.
Toute analyse automatique de texte inclue les étapes suivantes (pré-traitemnts) : (formatage et nettoyage, tokenisation et lemmatisation, élimination des stop-word, mise en vecteur selon un modèle de représentation de texte (tf, tf-idf, ...).
j'ai besoin d'identifier les classes ou les fonctions du package qui font ces tâches, soit vous les rajouter afin d'appliquer la méthode sur un corpus réel (quelque centaines de documents à l'état original).
Le modèle de clustering par LDA(Latent Dirichlet Allocation) est mon objectif principal mais si le package le permet il est souhaitable d'inclure d'autres méthodes comme variantes de comparaison. Ceci une plus grande capacité.. et merci pour votre attention
Configuration: Windows XP
Firefox 3.0.8