PSL Master in Computation Humanities
Master/Graduate course, PSL/Ecole nationale des chartes, 2025
Cours “Introduction au TAL”, Master HN PSL automne 2025
Le mercredi, de 9h à 12h (le cours se terminera en fait vers 11h40 ou 11H45, pour l’inter-cours), à l’école nationale des chartes
Intervenants
Thierry Poibeau
Noé Durandard
Répertoire pour les documents et infos associées :
https://github.com/tpoibeau/Master-HN (mais du fait de fichiers trop gros, les données complètes seront surtout sur : https://drive.google.com/drive/folders/1Nl5ZfJ1-C1KaKnaVZ6PDG7Xp7VEEureo?usp=sharing
Référence générale pour le cours
Speech and Language Processing (3rd ed. draft, en ligne, mis à jour en permanence)
Dan Jurafsky and James H. Martin
https://web.stanford.edu/~jurafsky/slp3/
(ce livre est très dense : quand un chapitre est indiqué en lecture possible, il faut lire les parties qui vous intéressent. Jurafsky&Martin est surtout une référence pour aller plus loin. A priori, ce n’est pas un livre à lire en continu, sauf si vous souffrez d’insomnie ou si vous avez une volonté de fer).
Il n’y aura en principe pas d’examen avec des questions de cours, mais des notions importantes sont indiquées pour chaque séance. Vous devez maîtriser ces notions, qui sont des notions de base pour le TAL.
Plan du cours
- Cours 1 : Introduction, présentation générale
- Cours 2 : « Niveaux » d’analyse linguistique (morphosyntaxe, syntaxe, sémantique, entités nommées…) / Spacy (Bert)
- Cours 3 : Entity linking ?
- Cours 4, 5 : LLMs, fine tuning… (N. Durandard)
- Cours 6, 7 : Topic modelling (N. Durandard)
- Cours 8 : Aspects éthiques, présentation des travaux de validation du cours, discussion et conclusion
Cours du 1er octobre 2025 : Introduction
Les supports de présentation sont sur GitHub et dans le drive indiqué ci-dessus.
Qu’est-ce que le TAL ?
Evolution du domaine (méthodes symboliques, statistiques, neuronales)
Lien du TAL avec les Humanités numériques
Désambiguisation sémantique
Notions importantes
Problèmes d’ambiguïté, de désambiguïsation et d’explosion combinatoire
Distant reading
Loi de Zipf, loi de Pareto
Evaluation
Précision, rappel, F-mesure
Niveaux de traitements : morphosyntaxe, syntaxe sémantique
Lectures (pour aller plus loin) :
Jurafsky et Martin, chapitre I (word senses and Wordnet), et pour la suite : chapitres 2, 17, 18, 19
Katrin Erk, Diana McCarthy, Nicholas Gaylord (2009). Investigations on Word Senses and Word Usages. ACL : https://aclanthology.org/P09-1002/ (sur la notion de “graded word sense”, cad le fait qu’en contexte, un mot peut correspondre en partie à plusieurs définitions du dictionnaire)
Cours du 8 octobre 2025 : Niveaux d’analyse, Spacy
Notions :
Token, tokenization
Analyse morphosyntaxique, POS Tagging, syntaxe,s émantiquer, entités nommées
Spacy :
https://spacy.io/
Lectures (pour aller plus loin) :
Jurafsky et Martin, chapitre 10 ; chapitre 2, 17, 18, 19
Cours du 22 octobre 2025 : Vectorisation
Notions :
Annotation pour ‘lapprentissage
Accord entre annotateurs (kappa)
Notion de vecteur en TAL
Analyse distributionnelle
Word2vec
BERT
UMPA
Notebook
Voir dans le drive
Lectures (pour aller plus loin) :
Jurafsky et Martin, chapitre 10 ; chapitre 5 (et éventuellement, 6 et 7)
