Text Mining avec R (Réf TEXMI) Présentiel

Dernière mise à jour : 03/09/2025

La formation propose une chaine complète de traitements allant de l’import de textes de sources différentes, à leur préparation et la création du vocabulaire jusqu’à leur analyse afin de les synthétiser de la manière la plus objective possible.

Public

Tout public

Prérequis

Avoir des connaissances de base en statistique ainsi qu'une pratique intermédiaire du logiciel R (import de fichiers, manipulation des données et des objets R,...)

Objectifs pédagogiques

  • Importer, préparer et structurer les données
  • Choisir les méthodes de Text Mining appropriées aux questions posées
  • Appliquer, à l'aide du logiciel R, les différentes méthodes
  • Interpréter les sorties de chaque méthode

Contenu

  • Importer des données textuelles depuis un répertoire ou un tableur en choisissant le bon codage
  • Nettoyer les données pour créer le vocabulaire : 
    • supprimer ponctuation, chiffres, espaces, etc.
    • annoter chaque mot avec sa fonction dans une phrase (article, verbe, etc.) et le mettre dans sa forme générique (singulier, infinitif, lemmatisation, etc)
  • Structurer les données et choisir la métrique d'analyse (présence/absence, nombre d'occurrence, TF-IDF
  • Décrire le vocabulaire (fréquences des mots, nuages des mots, loi Zipf)
  • Comparer le vocabulaire de plusieurs groupes de texte, trouver les mots le plus spécifiques de chaque groupe, les relations entre les mots et les documents (AFC, clustering, …)
  • Identifier les différents thèmes que dégagent les textes (LDA)
  • Identifier des émotions (sentiment analysis) que dégagent les textes

Méthodes pédagogiques

  • Exposés et échanges
  • Manipulations et exercices pratiques sur des études de cas mises en œuvre avec le logiciel R

Evaluation des acquis

Questionnaire

Responsable pédagogique

...

MEURISSE Sofia

Diplômée d'un master 2 en méthodologie et statistique en recherche biomédicale à l'université Paris-Sud, Sofia exerce pendant 11 ans en tant que statisticienne au service de santé publique de l'hôpital Saint-Antoine à Paris, puis à l'INSERM où elle travaille sur un projet de recherche de facteurs de risques environnementaux et se spécialise dans les systèmes d'information géographique. En 2015, elle intègre Asterop avant de rejoindre l'Institut de l'élevage, au service Data'Stat en 2019 en tant que statisticienne pour renforcer l'équipe dans des missions d'appui statistique et de formation.

M'inscrire à la formation



PARIS
PARIS


MEURISSE Sofia
MEURISSE Sofia
Détail des créneaux de la session sélectionnée :
Finaliser l'inscription

Repas et hébergement

Déjeuners offerts. L'hébergement et les repas du soir ne sont ni gérés, ni pris en charge par l'Institut de l'Elevage.

Prochaines Sessions

  • 21/05/26 → 22/05/26 Présentiel
    PARIS (75)
  • 19/11/26 → 20/11/26 Présentiel
    PARIS (75)

Accessibilité

Sélectionnez le niveau de contraste souhaité
Adaptez la taille de la police
Sélectionnez la police de caractères souhaitée