tous les documents
  • tous les documents
  • Images
  • Films
  • Rushes
  • Publications
  • Audio
Recherche avancée
Ensemble de recherche :
tous les documents
  • tous les documents
  • Images
  • Films
  • Rushes
  • Publications
  • Audio
Recherche par couleur
Ensemble de recherche :
tous les documents
  • tous les documents
  • Images
  • Films
  • Rushes
  • Publications
  • Audio
Code HTML Copiez-collez le code ci-dessous pour l'intégrer dans une page Web.
Titre :
Mon équipe en 180 secondes : ALMAnaCH
Légende - Résumé :
Benoît Sagot, responsable de l'équipe-projet ALMAnaCH, présente les travaux de son équipe en 180 secondes.
Les documents textuels sont très variés (anciens ou récents, à valeur juridique ou non, produit par des institutions ou des particuliers) et posent donc toute une variété de problème lors de leur traitement informatique. On peut vouloir extraire des informations de ses textes, les corriger, les simplifier, les traduire, les classifier, faire de l'analyse statistique - quelque soit le volume ou l'état des documents à traiter.
ALMAnaCH a donc développé des outils basé sur du machine learning pour répondre à ces besoins : des étiqueteurs morpho-syntaxiques, de l'analyse syntaxique ou sémantique.
Ceci permet également de mieux comprendre le fonctionnement des langues et leur évolution, et de développer de nouvelles approches en sciences humaines et sociales (les humanités numériques).
Nom de fichier :
Inria-1190-ALMANACH-180s_VF.mp4
Titre :
Mon équipe en 180 secondes : ALMAnaCH
Année :
2019
Durée (min) :
00:03:26
Publications :
https://videotheque.inria.fr/videotheque/doc/1190
Autres versions :
Master VF : 1190
Master VEN :
Autre : Lien externe :
Lien Equipe-projet :
Lien Centre de Recherche :
Mots clés :
N° master :
1190
Durée :
03 min 26 sec
IsyTag :
analyse - Apprentissage - approche - document - donnée - encyclopédie - grammaire - langue - machine - problème - robustesse - terminologie - texte - volume
Transcription automatiqu :
Ça fait plusieurs millénaires déjà que l'humanité échange des informations au moyen de l'écrit On a ici un exemple d'un de littérature d'un roman du Moyen Âge en ancien français sur lesquels nous travaillons
C'est aussi des dictionnaires des encyclopédies comme cette encyclopédie qui date des années 1700 ou bien sur Wikipédia qui est d'une taille bien plus importante et qui pose du coup d'autres problèmes
Ce sont aussi des documents à valeur historique qui sortent des archives fort nombreuses comme ce document sur lequel nous travaillons aussi
Bien sûr ce sont aussi des documents techniques comme ce passionnant article d'Éric avec toute la terminologie spécifique qu'il peut contenir terminologie spécifique qui aussi bien sûr une caractéristique
Des documents juridiques comme cette convention impliquant Inria
La plupart des données qui sont créées aujourd'hui sont probablement plutôt de l'ordre des textes journalistiques comme cet article du Monde
Mais il y a tout un autre pan de documents textuels c'est ceux qui sont produits par Monsieur Madame Tout-le-monde Ça c'est une lettre d'un poilu qui écrivait depuis le front pendant la première guerre mondiale à sa famille Et si vous arrivez à déchiffrer ce texte vous y verriez toutes sortes de fautes d'orthographe
et d'autres problèmes qui rendent l'analyse difficile
faute d'orthographe et autres problèmes
qui eux se retrouvent aujourd'hui les mêmes causes produisant les mêmes effets sur les réseaux sociaux
Alors avec tous ces textes qu'est-ce qu'on peut vouloir faire Soit à la main mais c'est long et ça prend du temps soit informatiquement bien sûr automatiquement et c'est ce qu'étudie de mon équipe ALMANACH Bien sûr on peut vouloir corriger ces textes on peut vouloir les simplifier On peut vouloir les traduire dans une autre langue on peut vouloir en extraire des informations même si c'est des gros volumes On peut vouloir faire de l'analyse statistique sur ces donnée textuelles pensez aux données du Grand Débat
On peut vouloir classifier des documents Et pour cela on a développé toutes sortes d'outils Par exemple des étiqueteurs morpho-syntaxiques qui décident si un mot est un nom ou un verbe
de l'analyse syntaxique donc la grammaire de l'analyse sémantique essayer d'extraire le sens Et tout cela s'appuie sur des approches symboliques qui ressort des grammaires formelles et de la théorie de la compilation des approches statistiques donc du machine learning classique et puis les approches neuronales du machine learning plus moderne Et bien évidemment ces approches à base de machines learning ont besoin de données d'apprentissage des corpus qui peut être annotés ou des gros volumes de textes bruts
Un des challenges importants que l'on a c'est la robustesse le besoin de robustesse face à la variation linguistique Je vous ai montré toutes sortes de documents de toute nature et de toute époque
et ce challenge il se pose à l'intérieur de chaque langue et notamment pour le français qui est la langue sur laquelle nous travaillons le plus
entre langues proches et bien sûr dans un contexte multilingue
Outre toutes les applications dont j'ai parlé ce que nous faisons permet de mieux comprendre le fonctionnement des langues et leur évolution
et de développer de nouvelles approches pour la recherche en sciences humaines et sociales c'est fameuses humanités numériques
Et puis pour finir je voudrais rappeler que le traitement automatique des langues fait partie de ce fameux chapeau qui s'appelle intelligence artificielle au contact avec l'apprentissage automatique et la vision Et ça ouvre des perspectives nouvelles la prise en compte du contexte et l'intégration de données multimodales Je vous remercie
Inria-1190-ALMANACH-180s_VF.mp4

Format : .mp4
384,4 Mo
1920 x 1080 pixels
Inria-1190-ALMANACH-180s_HD.MP4

Format : .mp4
125,8 Mo
1024 x 576 pixels
Moyenne définition - équivalent DVD
Encodage PAL .MP4 H264
5 Mbits/s
Encodage PAL .MP4 H264
5 Mbits/s
Sélection
Voir Selection
Déposer ici pour retirer de la sélection