tous les documents
  • tous les documents
  • Images
  • Films
  • Rushes
  • Publications
  • Audio
Recherche avancée
Ensemble de recherche :
tous les documents
  • tous les documents
  • Images
  • Films
  • Rushes
  • Publications
  • Audio
Recherche par couleur
Ensemble de recherche :
tous les documents
  • tous les documents
  • Images
  • Films
  • Rushes
  • Publications
  • Audio
Code HTML Copiez-collez le code ci-dessous pour l'intégrer dans une page Web.
Titre :
Diapason - reconnaître et intégrer la parole.
Légende - Résumé :
Logiciel développé par l'équipe DIALOGUE (CRIN-CNRS et Inria Lorraine), en collaboration avec Thomson - CSF SCD Présentation par Jean-Marie Pierrel.
Démonstration.
Nom de fichier :
Inria-262-Diapason-fr.mp4
Titre :
Diapason - reconnaître et intégrer la parole.
Année :
1994
Durée (min) :
00:09:33
Publications :
https://videotheque.inria.fr/videotheque/doc/262
Autres versions :
Master VF : 262
Master VEN : 262
Autre : Lien externe :
Lien Equipe-projet :
Lien Centre de Recherche :
Mots clés :
N° master :
262
Durée :
09 min 33 sec
IsyTag :
application - axe - colonne - décision - deuxième - dialogue - est-à-dire - fréquence - hâtif - note - phonétique - plate-forme - premier - résultat - système - type - voyle
Transcription automatiqu :
aller vers une intégration effective de la parole dans des applications deux points cruciaux sont encore à développer actuellement un par un faut obtenir une reconnaissance la parole meilleure que celle que nous obtenons actuellement voie qui s'offre à nous c'est d'utiliser des techniques analytique qui s'appuie sur une reconnaissance acoustique au phonétique de la parole c'est-à-dire sur la structure même connaissances linguistiques liées à la langue est un test système de reconnaissance employé et de type analytique c'est-à-dire que plutôt que de prendre des décisions au niveau de mots on prend des décisions au niveau des phonèmes et surtout des très phonétique qui composent les mots vous avez une visualisation des résultats intermédiaires axe des temps avec une ligne chacune mini secondes la france prononcer c'tests et puis il y a un texte qui est hors de l'écran la courbe blanche représente l'énergie totale la courbe bleue l'énergie voisin c'est-à-dire celle qui est due au mouvement des cordes vocales on a différents paramètres la gauche vers la droite pour qui sont de plus en plus évoluées pour arriver à plus exactement aux chaînes de phonèmes reconnus nous avons la sortie du premier étage d'analyse qui était en fait une coqueluche artificielle avec sur cet axe des fréquences sur cet axe des amplitudes pour les phonétique on reconnaît la structure forme antique c'est à dire les principales bosses du spectre le premier formant le deuxième formant la nature de la voyle par exemple ici c'est un eh bien nature dépend de la position de ce premier formant et ce deuxième formant sur l'axe des fréquences visualisation nous permet de savoir ce qui se passe en particulier on peut par exemple avancer voir l'évolution en fonction du temps des différentes courbes là par on voile la fin la voyle qui se termine la fenêtre suivante sert à visualiser euh un certain nombre de résultats intermédiaires là par exemple bien j'ai choisi ces quatre qui sont ici et qui correspondent en fait à de l'dans trois une bande basse fréquence une pente de moyenne fréquence et une bande euh haute fréquence ici on a le résultat de la recherche des faune la première euh colonne simplement les zones silence donc on ne va pas en parler plus la deuxième colonne correspond au voyez elle détectée ici par exemple nous trouvons une première voyait avec une note de quinze kg un sur seize parce que les notes ici sont données sur seize c'est une note d'existence cette première voyle correspond ou de ces troisième colonne elle correspond au fric hâtive on voit ici en premier une fric hâtive assez forte avec une note de quinze sur cinq ce qui correspond au ceux une petite fric hâtive assez courte d'une note de huit sur seize qui est en fait correspond aux burst c'est à dire à l'explosion du thé la quatrième colonne correspond au plus yves montant c'est-à-dire essentiellement ici aux deux thèmes qui sont c'est un test premier qui est ici deuxième test qui là on peut effectivement regarder par exemple le paramètre ce premier les plus importants sont le fait que existe avec une une probabilité très forte que par ailleurs on est pratiquement sûr qu'il est de type sourd qui est correct et qui est de type d'antal ce qui est également correct on peut également vérifier que l'afrique hâtive qui est à côté est vu comme un burst autre voie possible pour améliorer les systèmes c'de mieux intégrer la parole à l'application mise en oeuvre cela il faut non seulement reconnaître ce qui est dit mais essayer de le comprendre l'interpréter et ceci dans le cadre d'un dialogue entre le système et son utilisateur il n'est pas possible de définir un système ad hoc pour chaque application avons donc tenté de développer une plate-forme de développement de dialogues oraux machines exemple d'application que nous avons choisie concerne le contrôle aérien un centre de contrôle aérien les tâches peuvent être de deux types d'une part la planification des vols d'autre part le dialogue avec les pilotes dialogue mis en s'intègre essentiellement à l'aspect planification à court terme le contrôleur doit prendre en compte l'arrivée de nouveaux avions dans le secteur dont il a la charge et résoudre les conflits qui peuvent survenir cette application nous semble bien adaptée à notre plate-forme de dialogue air france deux trois deux le vocabulaire technique employé est très précis intégrés et que les décisions doivent être prises dans un temps limité sans toutefois nécessiter le temps réel deux un huit assumer les routes fichées conflit warning sur lufthansa ainsi ce neuf streep en cours par balise par deux survols pointés par quatre ces trois zéro zéro zoom face et route ces v warning zone d'évitement cap verbalisent trop british airways de qat deux cap verbalisent spr ces zones d'évitement air france deux trois deux une des particularités de notre système c'est qu'il ne dépend pas des caractéristiques de la voix de l'utilisateur assumer air inter deux virgule huit ouest de cat deux nous poursuivons nos recherches afin qu'ils soient capables de reconnaître d'intégrer de la parole de plus en plus naturelle lufthansa un un zéro
Inria-262-Diapason-fr.mp4

Format : .mp4
321,8 Mo
768 x 576 pixels
Fichier H264. Meilleure résolution disponible
Sélection
Voir Selection
Déposer ici pour retirer de la sélection