Benoît Sagot, responsable de l'équipe-projet ALMAnaCH, présente les travaux de son équipe en 180 secondes. Les documents textuels sont très variés (anciens ou récents, à valeur juridique ou non, produit par des institutions ou des particuliers) et posent donc toute une variété de problème lors de leur traitement informatique. On peut vouloir extraire des informations de ses textes, les corriger, les simplifier, les traduire, les classifier, faire de l'analyse statistique - quelque soit le volume ou l'état des documents à traiter. ALMAnaCH a donc développé des outils basé sur du machine learning pour répondre à ces besoins : des étiqueteurs morpho-syntaxiques, de l'analyse syntaxique ou sémantique. Ceci permet également de mieux comprendre le fonctionnement des langues et leur évolution, et de développer de nouvelles approches en sciences humaines et sociales (les humanités numériques).
|