tous les documents
  • tous les documents
  • Images
  • Films
  • Rushes
  • Publications
  • Audio
Recherche avancée
Ensemble de recherche :
tous les documents
  • tous les documents
  • Images
  • Films
  • Rushes
  • Publications
  • Audio
Recherche par couleur
Ensemble de recherche :
tous les documents
  • tous les documents
  • Images
  • Films
  • Rushes
  • Publications
  • Audio
Code HTML Copiez-collez le code ci-dessous pour l'intégrer dans une page Web.
Titre :
Animation sur Parole
Légende - Résumé :
Le « lipsync » ou synchronisation labiale est une étape clé dans la fabrication d'un dessin animé. Ce film montre l'amélioration de ce processus, grâce à l'utilisation d'un logiciel, ainsi que les recherches à l'origine de cette technologie.
Après avoir décrit le processus de fabrication d'un dessin animé, le film se focalise sur l'étape cruciale que constitue le «lipsync». Un responsable de la société SyncMagic présente le logiciel créé par cette entreprise en partenariat avec l'équipe de recherche PAROLE du Loria. Les chercheurs donnent ensuite un aperçu des recherches sur la reconnaissance de la parole, qui sont à l'origine de cette technologie.
Enfin, le film aborde son adaptation à l'animation 3D.
Un exemple de coopération entre une PME innovante et une équipe de recherche...
Nom de fichier :
Inria-540-Anim_sur_parole-fr.mp4
Titre :
Animation sur Parole
Année :
2004
Durée (min) :
00:12:57
Publications :
https://videotheque.inria.fr/videotheque/doc/540
Autres versions :
Master VF : 540
Master VEN :
Autre : Lien externe :
Lien Equipe-projet :
Lien Centre de Recherche :
Mots clés :
N° master :
540
Durée :
12 min 57 sec
IsyTag :
- - ' - 25 - 2D - alignement - animation - animé - animés· - approche - bouche - dessin - dessinateurs‚ - deuxième - différent - fichier - image - importante‚ - in' - Joe' - l' - lip - logiciel - modèle - phonèmes - phonèmes· - phonétique - reconnaissance - Sync - système - type - voix
Transcription automatiqu :
diffuseurs chaque chaîne de programme et dans ses programmes jeunesse l'animation tient une part importante sans eux sous forme de dessins animés de animation c'est un marché assez stable on dit tant qu'il y aura des enfants il faudra produire des dessins animés fabrication d'un dessin animé en deux dés obéit à des règles bien codifié qui définissent les étapes successives du travail chacune de ces étapes peut être confiée à un prestataire différent europe on peut dire qu'il y a tout tout ce qui est tout l'aspect euh créatif conceptuel euh le est fait euh par des dessinateurs des petites mains parce que c'est un travailleur matif euh en en s enregistrement des dialogues a lieu dès le début pendant la phase de production c'est censé dialogues enregistrés qui impose ensuite le rythme de l'animation des personnages ils servent en particulier à la synchronisation la vial ou l'ipsos est la bête qui vous a mis dans cet état c'est un mouton s'agit de déterminer les formes de bush qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées c'est alors que les dessins animés rencontrent la phonétique effet chaque langue parlée comporte un nombre limité de sens élémentaire appelé phonèmes en français par exemple il existe trente six phonèmes il y a plusieurs catégories qui sont la première est celle des déloyale ici on est deux vielle donc première c'est le à la deuxième est un ensuite eh bien il y a des concerne donc il a types de concernant des fric hâtives comme ici donc euh le jeu deuxième classe ne de concerne celle des exclusive donc par peu ici dernière catégorie de son est celle des semis vogels ou semis concernent comme le meneur qu'ils peuvent prendre soit les caractéristiques de noyelles soit celle d'une concernant prononciation de chacun de ces phonèmes induites un mouvement des lèvres qui peut être semblable pour des phonèmes différents pour les trente six phonèmes du français douze positions d'élèves ont été répertoriées et les animateurs disposent en général de six à huit formes de bouche pour les représenter pour prendre en charge le leipzig qu'a été créée la société sing magic cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ de programme et dans ses programmes jeunesse l'animation tient une part importante sans eux sous forme de dessins animés de animation c'est un marché assez stable on dit tant qu'il y aura des enfants il faudra produire des dessins animés fabrication d'un dessin animé en deux dés obéit à des règles bien codifié qui définissent les étapes successives du travail chacune de ces étapes peut être confiée à un prestataire différent europe on peut dire qu'il y a tout tout ce qui est tout l'aspect euh créatif conceptuel euh le est fait euh par des dessinateurs des petites mains parce que c'est un travailleur matif euh en en s enregistrement des dialogues a lieu dès le début pendant la phase de production c'est censé dialogues enregistrés qui impose ensuite le rythme de l'animation des personnages ils servent en particulier à la synchronisation la vial ou l'ipsos est la bête qui vous a mis dans cet état c'est un mouton s'agit de déterminer les formes de bush qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées c'est alors que les dessins animés rencontrent la phonétique effet chaque langue parlée comporte un nombre limité de sens élémentaire appelé phonèmes en français par exemple il existe trente six phonèmes il y a plusieurs catégories qui sont la première est celle des déloyale ici on est deux vielle donc première c'est le à la deuxième est un ensuite eh bien il y a des concerne donc il a types de concernant des fric hâtives comme ici donc euh le jeu deuxième classe ne de concerne celle des exclusive donc par peu ici dernière catégorie de son est celle des semis vogels ou semis concernent comme le meneur qu'ils peuvent prendre soit les caractéristiques de noyelles soit celle d'une concernant prononciation de chacun de ces phonèmes induites un mouvement des lèvres qui peut être semblable pour des phonèmes différents pour les trente six phonèmes du français douze positions d'élèves ont été répertoriées et les animateurs disposent en général de six à huit formes de bouche pour les représenter pour prendre en charge le leipzig qu'a été créée la société sing magic cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ses programmes jeunesse l'animation tient une part importante sans eux sous forme de dessins animés de animation c'est un marché assez stable on dit tant qu'il y aura des enfants il faudra produire des dessins animés fabrication d'un dessin animé en deux dés obéit à des règles bien codifié qui définissent les étapes successives du travail chacune de ces étapes peut être confiée à un prestataire différent europe on peut dire qu'il y a tout tout ce qui est tout l'aspect euh créatif conceptuel euh le est fait euh par des dessinateurs des petites mains parce que c'est un travailleur matif euh en en s enregistrement des dialogues a lieu dès le début pendant la phase de production c'est censé dialogues enregistrés qui impose ensuite le rythme de l'animation des personnages ils servent en particulier à la synchronisation la vial ou l'ipsos est la bête qui vous a mis dans cet état c'est un mouton s'agit de déterminer les formes de bush qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées c'est alors que les dessins animés rencontrent la phonétique effet chaque langue parlée comporte un nombre limité de sens élémentaire appelé phonèmes en français par exemple il existe trente six phonèmes il y a plusieurs catégories qui sont la première est celle des déloyale ici on est deux vielle donc première c'est le à la deuxième est un ensuite eh bien il y a des concerne donc il a types de concernant des fric hâtives comme ici donc euh le jeu deuxième classe ne de concerne celle des exclusive donc par peu ici dernière catégorie de son est celle des semis vogels ou semis concernent comme le meneur qu'ils peuvent prendre soit les caractéristiques de noyelles soit celle d'une concernant prononciation de chacun de ces phonèmes induites un mouvement des lèvres qui peut être semblable pour des phonèmes différents pour les trente six phonèmes du français douze positions d'élèves ont été répertoriées et les animateurs disposent en général de six à huit formes de bouche pour les représenter pour prendre en charge le leipzig qu'a été créée la société sing magic cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante sans eux sous forme de dessins animés de animation c'est un marché assez stable on dit tant qu'il y aura des enfants il faudra produire des dessins animés fabrication d'un dessin animé en deux dés obéit à des règles bien codifié qui définissent les étapes successives du travail chacune de ces étapes peut être confiée à un prestataire différent europe on peut dire qu'il y a tout tout ce qui est tout l'aspect euh créatif conceptuel euh le est fait euh par des dessinateurs des petites mains parce que c'est un travailleur matif euh en en s enregistrement des dialogues a lieu dès le début pendant la phase de production c'est censé dialogues enregistrés qui impose ensuite le rythme de l'animation des personnages ils servent en particulier à la synchronisation la vial ou l'ipsos est la bête qui vous a mis dans cet état c'est un mouton s'agit de déterminer les formes de bush qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées c'est alors que les dessins animés rencontrent la phonétique effet chaque langue parlée comporte un nombre limité de sens élémentaire appelé phonèmes en français par exemple il existe trente six phonèmes il y a plusieurs catégories qui sont la première est celle des déloyale ici on est deux vielle donc première c'est le à la deuxième est un ensuite eh bien il y a des concerne donc il a types de concernant des fric hâtives comme ici donc euh le jeu deuxième classe ne de concerne celle des exclusive donc par peu ici dernière catégorie de son est celle des semis vogels ou semis concernent comme le meneur qu'ils peuvent prendre soit les caractéristiques de noyelles soit celle d'une concernant prononciation de chacun de ces phonèmes induites un mouvement des lèvres qui peut être semblable pour des phonèmes différents pour les trente six phonèmes du français douze positions d'élèves ont été répertoriées et les animateurs disposent en général de six à huit formes de bouche pour les représenter pour prendre en charge le leipzig qu'a été créée la société sing magic cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de sans eux sous forme de dessins animés de animation c'est un marché assez stable on dit tant qu'il y aura des enfants il faudra produire des dessins animés fabrication d'un dessin animé en deux dés obéit à des règles bien codifié qui définissent les étapes successives du travail chacune de ces étapes peut être confiée à un prestataire différent europe on peut dire qu'il y a tout tout ce qui est tout l'aspect euh créatif conceptuel euh le est fait euh par des dessinateurs des petites mains parce que c'est un travailleur matif euh en en s enregistrement des dialogues a lieu dès le début pendant la phase de production c'est censé dialogues enregistrés qui impose ensuite le rythme de l'animation des personnages ils servent en particulier à la synchronisation la vial ou l'ipsos est la bête qui vous a mis dans cet état c'est un mouton s'agit de déterminer les formes de bush qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées c'est alors que les dessins animés rencontrent la phonétique effet chaque langue parlée comporte un nombre limité de sens élémentaire appelé phonèmes en français par exemple il existe trente six phonèmes il y a plusieurs catégories qui sont la première est celle des déloyale ici on est deux vielle donc première c'est le à la deuxième est un ensuite eh bien il y a des concerne donc il a types de concernant des fric hâtives comme ici donc euh le jeu deuxième classe ne de concerne celle des exclusive donc par peu ici dernière catégorie de son est celle des semis vogels ou semis concernent comme le meneur qu'ils peuvent prendre soit les caractéristiques de noyelles soit celle d'une concernant prononciation de chacun de ces phonèmes induites un mouvement des lèvres qui peut être semblable pour des phonèmes différents pour les trente six phonèmes du français douze positions d'élèves ont été répertoriées et les animateurs disposent en général de six à huit formes de bouche pour les représenter pour prendre en charge le leipzig qu'a été créée la société sing magic cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· animation c'est un marché assez stable on dit tant qu'il y aura des enfants il faudra produire des dessins animés fabrication d'un dessin animé en deux dés obéit à des règles bien codifié qui définissent les étapes successives du travail chacune de ces étapes peut être confiée à un prestataire différent europe on peut dire qu'il y a tout tout ce qui est tout l'aspect euh créatif conceptuel euh le est fait euh par des dessinateurs des petites mains parce que c'est un travailleur matif euh en en s enregistrement des dialogues a lieu dès le début pendant la phase de production c'est censé dialogues enregistrés qui impose ensuite le rythme de l'animation des personnages ils servent en particulier à la synchronisation la vial ou l'ipsos est la bête qui vous a mis dans cet état c'est un mouton s'agit de déterminer les formes de bush qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées c'est alors que les dessins animés rencontrent la phonétique effet chaque langue parlée comporte un nombre limité de sens élémentaire appelé phonèmes en français par exemple il existe trente six phonèmes il y a plusieurs catégories qui sont la première est celle des déloyale ici on est deux vielle donc première c'est le à la deuxième est un ensuite eh bien il y a des concerne donc il a types de concernant des fric hâtives comme ici donc euh le jeu deuxième classe ne de concerne celle des exclusive donc par peu ici dernière catégorie de son est celle des semis vogels ou semis concernent comme le meneur qu'ils peuvent prendre soit les caractéristiques de noyelles soit celle d'une concernant prononciation de chacun de ces phonèmes induites un mouvement des lèvres qui peut être semblable pour des phonèmes différents pour les trente six phonèmes du français douze positions d'élèves ont été répertoriées et les animateurs disposent en général de six à huit formes de bouche pour les représenter pour prendre en charge le leipzig qu'a été créée la société sing magic cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit on dit tant qu'il y aura des enfants il faudra produire des dessins animés fabrication d'un dessin animé en deux dés obéit à des règles bien codifié qui définissent les étapes successives du travail chacune de ces étapes peut être confiée à un prestataire différent europe on peut dire qu'il y a tout tout ce qui est tout l'aspect euh créatif conceptuel euh le est fait euh par des dessinateurs des petites mains parce que c'est un travailleur matif euh en en s enregistrement des dialogues a lieu dès le début pendant la phase de production c'est censé dialogues enregistrés qui impose ensuite le rythme de l'animation des personnages ils servent en particulier à la synchronisation la vial ou l'ipsos est la bête qui vous a mis dans cet état c'est un mouton s'agit de déterminer les formes de bush qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées c'est alors que les dessins animés rencontrent la phonétique effet chaque langue parlée comporte un nombre limité de sens élémentaire appelé phonèmes en français par exemple il existe trente six phonèmes il y a plusieurs catégories qui sont la première est celle des déloyale ici on est deux vielle donc première c'est le à la deuxième est un ensuite eh bien il y a des concerne donc il a types de concernant des fric hâtives comme ici donc euh le jeu deuxième classe ne de concerne celle des exclusive donc par peu ici dernière catégorie de son est celle des semis vogels ou semis concernent comme le meneur qu'ils peuvent prendre soit les caractéristiques de noyelles soit celle d'une concernant prononciation de chacun de ces phonèmes induites un mouvement des lèvres qui peut être semblable pour des phonèmes différents pour les trente six phonèmes du français douze positions d'élèves ont été répertoriées et les animateurs disposent en général de six à huit formes de bouche pour les représenter pour prendre en charge le leipzig qu'a été créée la société sing magic cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travailleur rébarbatif‚ en Asie· enregistrement des dialogues a lieu dès le début pendant la phase de production c'est censé dialogues enregistrés qui impose ensuite le rythme de l'animation des personnages ils servent en particulier à la synchronisation la vial ou l'ipsos est la bête qui vous a mis dans cet état c'est un mouton s'agit de déterminer les formes de bush qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées c'est alors que les dessins animés rencontrent la phonétique effet chaque langue parlée comporte un nombre limité de sens élémentaire appelé phonèmes en français par exemple il existe trente six phonèmes il y a plusieurs catégories qui sont la première est celle des déloyale ici on est deux vielle donc première c'est le à la deuxième est un ensuite eh bien il y a des concerne donc il a types de concernant des fric hâtives comme ici donc euh le jeu deuxième classe ne de concerne celle des exclusive donc par peu ici dernière catégorie de son est celle des semis vogels ou semis concernent comme le meneur qu'ils peuvent prendre soit les caractéristiques de noyelles soit celle d'une concernant prononciation de chacun de ces phonèmes induites un mouvement des lèvres qui peut être semblable pour des phonèmes différents pour les trente six phonèmes du français douze positions d'élèves ont été répertoriées et les animateurs disposent en général de six à huit formes de bouche pour les représenter pour prendre en charge le leipzig qu'a été créée la société sing magic cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· enregistrement des dialogues a lieu dès le début pendant la phase de production c'est censé dialogues enregistrés qui impose ensuite le rythme de l'animation des personnages ils servent en particulier à la synchronisation la vial ou l'ipsos est la bête qui vous a mis dans cet état c'est un mouton s'agit de déterminer les formes de bush qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées c'est alors que les dessins animés rencontrent la phonétique effet chaque langue parlée comporte un nombre limité de sens élémentaire appelé phonèmes en français par exemple il existe trente six phonèmes il y a plusieurs catégories qui sont la première est celle des déloyale ici on est deux vielle donc première c'est le à la deuxième est un ensuite eh bien il y a des concerne donc il a types de concernant des fric hâtives comme ici donc euh le jeu deuxième classe ne de concerne celle des exclusive donc par peu ici dernière catégorie de son est celle des semis vogels ou semis concernent comme le meneur qu'ils peuvent prendre soit les caractéristiques de noyelles soit celle d'une concernant prononciation de chacun de ces phonèmes induites un mouvement des lèvres qui peut être semblable pour des phonèmes différents pour les trente six phonèmes du français douze positions d'élèves ont été répertoriées et les animateurs disposent en général de six à huit formes de bouche pour les représenter pour prendre en charge le leipzig qu'a été créée la société sing magic cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lipsing''· est la bête qui vous a mis dans cet état c'est un mouton s'agit de déterminer les formes de bush qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées c'est alors que les dessins animés rencontrent la phonétique effet chaque langue parlée comporte un nombre limité de sens élémentaire appelé phonèmes en français par exemple il existe trente six phonèmes il y a plusieurs catégories qui sont la première est celle des déloyale ici on est deux vielle donc première c'est le à la deuxième est un ensuite eh bien il y a des concerne donc il a types de concernant des fric hâtives comme ici donc euh le jeu deuxième classe ne de concerne celle des exclusive donc par peu ici dernière catégorie de son est celle des semis vogels ou semis concernent comme le meneur qu'ils peuvent prendre soit les caractéristiques de noyelles soit celle d'une concernant prononciation de chacun de ces phonèmes induites un mouvement des lèvres qui peut être semblable pour des phonèmes différents pour les trente six phonèmes du français douze positions d'élèves ont été répertoriées et les animateurs disposent en général de six à huit formes de bouche pour les représenter pour prendre en charge le leipzig qu'a été créée la société sing magic cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lipsing''· ''C'est la bête qui vous a mis dans cet état''c'est un mouton s'agit de déterminer les formes de bush qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées c'est alors que les dessins animés rencontrent la phonétique effet chaque langue parlée comporte un nombre limité de sens élémentaire appelé phonèmes en français par exemple il existe trente six phonèmes il y a plusieurs catégories qui sont la première est celle des déloyale ici on est deux vielle donc première c'est le à la deuxième est un ensuite eh bien il y a des concerne donc il a types de concernant des fric hâtives comme ici donc euh le jeu deuxième classe ne de concerne celle des exclusive donc par peu ici dernière catégorie de son est celle des semis vogels ou semis concernent comme le meneur qu'ils peuvent prendre soit les caractéristiques de noyelles soit celle d'une concernant prononciation de chacun de ces phonèmes induites un mouvement des lèvres qui peut être semblable pour des phonèmes différents pour les trente six phonèmes du français douze positions d'élèves ont été répertoriées et les animateurs disposent en général de six à huit formes de bouche pour les représenter pour prendre en charge le leipzig qu'a été créée la société sing magic cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lipsing''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées c'est alors que les dessins animés rencontrent la phonétique effet chaque langue parlée comporte un nombre limité de sens élémentaire appelé phonèmes en français par exemple il existe trente six phonèmes il y a plusieurs catégories qui sont la première est celle des déloyale ici on est deux vielle donc première c'est le à la deuxième est un ensuite eh bien il y a des concerne donc il a types de concernant des fric hâtives comme ici donc euh le jeu deuxième classe ne de concerne celle des exclusive donc par peu ici dernière catégorie de son est celle des semis vogels ou semis concernent comme le meneur qu'ils peuvent prendre soit les caractéristiques de noyelles soit celle d'une concernant prononciation de chacun de ces phonèmes induites un mouvement des lèvres qui peut être semblable pour des phonèmes différents pour les trente six phonèmes du français douze positions d'élèves ont été répertoriées et les animateurs disposent en général de six à huit formes de bouche pour les représenter pour prendre en charge le leipzig qu'a été créée la société sing magic cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lipsing''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique effet chaque langue parlée comporte un nombre limité de sens élémentaire appelé phonèmes en français par exemple il existe trente six phonèmes il y a plusieurs catégories qui sont la première est celle des déloyale ici on est deux vielle donc première c'est le à la deuxième est un ensuite eh bien il y a des concerne donc il a types de concernant des fric hâtives comme ici donc euh le jeu deuxième classe ne de concerne celle des exclusive donc par peu ici dernière catégorie de son est celle des semis vogels ou semis concernent comme le meneur qu'ils peuvent prendre soit les caractéristiques de noyelles soit celle d'une concernant prononciation de chacun de ces phonèmes induites un mouvement des lèvres qui peut être semblable pour des phonèmes différents pour les trente six phonèmes du français douze positions d'élèves ont été répertoriées et les animateurs disposent en général de six à huit formes de bouche pour les représenter pour prendre en charge le leipzig qu'a été créée la société sing magic cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lipsing''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple peu ici dernière catégorie de son est celle des semis vogels ou semis concernent comme le meneur qu'ils peuvent prendre soit les caractéristiques de noyelles soit celle d'une concernant prononciation de chacun de ces phonèmes induites un mouvement des lèvres qui peut être semblable pour des phonèmes différents pour les trente six phonèmes du français douze positions d'élèves ont été répertoriées et les animateurs disposent en général de six à huit formes de bouche pour les représenter pour prendre en charge le leipzig qu'a été créée la société sing magic cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lipsing''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''dernière catégorie de son est celle des semis vogels ou semis concernent comme le meneur qu'ils peuvent prendre soit les caractéristiques de noyelles soit celle d'une concernant prononciation de chacun de ces phonèmes induites un mouvement des lèvres qui peut être semblable pour des phonèmes différents pour les trente six phonèmes du français douze positions d'élèves ont été répertoriées et les animateurs disposent en général de six à huit formes de bouche pour les représenter pour prendre en charge le leipzig qu'a été créée la société sing magic cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lipsing''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· prononciation de chacun de ces phonèmes induites un mouvement des lèvres qui peut être semblable pour des phonèmes différents pour les trente six phonèmes du français douze positions d'élèves ont été répertoriées et les animateurs disposent en général de six à huit formes de bouche pour les représenter pour prendre en charge le leipzig qu'a été créée la société sing magic cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lipsing''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter pour prendre en charge le leipzig qu'a été créée la société sing magic cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lipsing''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC cette idée là est venue euh par euh un de nos associés qui est andreas karl-heinz qui avait travaillé dans des studios de d'animation trois des euh donc lui êtes en développeurs de de d'outils informatiques il a toujours dit que un leipzig bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe moi j'ai toujours était intéressé par le l'art de l'animation euh les nouvelles technologies euh pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation et vu il avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que avait un besoin et un manque cette étape de travail était faite à la main c'était long fastidieux donc il fallait euh industrialiser ce secteur magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· magic a donc développé un logiciel en partenariat avec l'équipe de recherche parole et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· le langage parlait en un langage phonétique codé imprimé sur tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· tout d'abord avons permis un gain de temps considérable nous avons porté la production de leipzig d'un vingt six minute de cette jours à une c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée c'est le premier aspect le deuxième aspect c'est un gain euh au niveau qualitatif nous travaillons au dixième d'images près en sachant qu'il y a euh vingt cinq images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la est la précision qui nous garantit euh la qualité chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· chaque production le studio fournit deux fichiers les fichiers texte correspondant au dialogue et le fichier sont enregistrés ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mass start reconnaissance phonétique va analyser d'une part le texte et d'autre part le son elle va s'opérer au moment où nous allons décider d'appliquer telle portion de textes à telle portion de sang fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· fois que l'analyse phonétique est executé interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée interface va présenter une proposition d'alignement des phonèmes une règle phonétique cet alignement de phonétique fera correspondre ultérieurement les positions de bush adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates lettre indiquant les bouches à dessiner sont imprimées sur les feuilles d'exposition personnalisées selon les souhaits de chaque producteur clients ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· ligne correspond une image vous avez vingt cinq images par seconde souvent les feuilles d'exposition représentent deux à trois secondes vous avez le nom du personnage les mots qui sont prononcés et la décomposition de ces mots en phonèmes à l'image près les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· les sénateurs vous avez la correspondance des codes bush dont le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image le code la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner est la vedette à l'école nous livrons aussi une veille qui permet de visualiser le lipscomb d'un des personnages de de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série un sur la durée globale de l'épisode c'est un moyen que nous avons trouvé pour notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématique la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· la technologie sous-jacente repose sur les recherches menées à nancy par l'équipe paroles l'objectif de la reconnaissance de la parole c'est d'arriver à retrouver le son et aussi donc à s'augmenter laissant la parole reste un défi scientifique qui n'a pas reçu une réponse un ancien on travaille sur problème depuis le début des années soixante dix avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches au début des approches relevant de la programmation dynamique puis ensuite des approches relevant une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant depuis plus de quinze ans une approche probable ministre à base de manuel de markov et d'autres types de modèles probables existent aussi il nous paraissait important de pouvoir communiquer avec une équipe restreintes ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité euh le et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie euh dans notre structure intérêt pour nous de participer à un tel projet et de pouvoir améliorer les techniques de reconnaissance de la parole et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adopte des voix qui sont des fois caricaturale par exemple une voile de locuteurs très masculine une voile de tutrice très féminine une voix de bd une voix de monstres par conséquent il est très important que les modèles le markov soit adapté à la fois la voix masculine et féminine à la de monstre voilà votre bébé ça c'est un sujet qui est très compliqué en soi on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· on va essayer de montrer quelques différents types de voix de dessins animés donc sur cet écran on voit ici le signal sonore y cadavre doté sur partie ici on voit euh la présence dans spektr graphique et tous les mille hertz on a une ligne noire et plus la couleur est proche du rouge foncé plus d'énergie à la fréquence correspondant ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· ici on voit l'alignement qui a été trouvé automatiquement par le système qui indique pour chacun des phonèmes trouver le phonèmes trouvé son début et sa fin du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique pour chacun des phonèmes trouver le phonème trouvé‚ et son début‚ et sa fin· du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· du haut la première ça c'est la deuxième c'est la troisième du qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''qu'on voit bien qu'y il a trois autres nations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents fouad nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· nous venons de voir que notre système était capable d'aligner le texte une phrase sur différentes prononciation ce n'est pas toujours possible voici un exemple sur cet écran où vous avez une trace qui est celle-ci on voit sur l'écran que notre système à palmier correctement les phonèmes puisque le n suffit du un alors on voit le que même a pris trois places par rapport aux uns ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''ceci tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de markov qui ont été calculés sur des milliers de phrases de corpus de données on obtient donc des modèles moyens de tous les phonèmes du français ter moyen fait on qu'n'arrive pas forcément à bien aligner donc dans une deuxième partie de notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système de s'adapter et adapter ses phonèmes générique à la voix d'un personnage pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela utilise une dizaine de secondes la voix du pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes générique vers le personnage on peut voir sur ce nouvel alignement en utilisant ces phonèmes adaptés cet alignement est meilleur puisque le aiment bien alignés et le un derrière pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes génériques vers le personnage - et on peut voir sur ce nouvel alignement‚ en utilisant ces phonèmes adaptés‚ que cet alignement est meilleur puisque le ''m''est bien aligné et le ''in''derrière également· pour les dessins animés traditionnels en deux dés le logiciel des signes magiques a aussi été couplé avec les principaux logiciels de synthèse trois d animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes génériques vers le personnage - et on peut voir sur ce nouvel alignement‚ en utilisant ces phonèmes adaptés‚ que cet alignement est meilleur puisque le ''m''est bien aligné et le ''in''derrière également· Conçu pour les dessins animés traditionnels en 2D le logiciel de SYNC MAGIC a aussi été couplé avec les principaux logiciels de synthèse 3D· animation de dés on va entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes génériques vers le personnage - et on peut voir sur ce nouvel alignement‚ en utilisant ces phonèmes adaptés‚ que cet alignement est meilleur puisque le ''m''est bien aligné et le ''in''derrière également· Conçu pour les dessins animés traditionnels en 2D le logiciel de SYNC MAGIC a aussi été couplé avec les principaux logiciels de synthèse 3D· En animation 2D on va varier entre un nombre fini de bush et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes génériques vers le personnage - et on peut voir sur ce nouvel alignement‚ en utilisant ces phonèmes adaptés‚ que cet alignement est meilleur puisque le ''m''est bien aligné et le ''in''derrière également· Conçu pour les dessins animés traditionnels en 2D le logiciel de SYNC MAGIC a aussi été couplé avec les principaux logiciels de synthèse 3D· En animation 2D on va varier entre un nombre fini de bouches‚ et en trois d en a d e cours de l'animation qui vont interpeller différents cibles de morphine c'est beaucoup plus technique ça demande une mise en place plus importante et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes génériques vers le personnage - et on peut voir sur ce nouvel alignement‚ en utilisant ces phonèmes adaptés‚ que cet alignement est meilleur puisque le ''m''est bien aligné et le ''in''derrière également· Conçu pour les dessins animés traditionnels en 2D le logiciel de SYNC MAGIC a aussi été couplé avec les principaux logiciels de synthèse 3D· En animation 2D on va varier entre un nombre fini de bouches‚ et en 3D on des courbes d'animation qui vont interpoler différentes cibles de morphing· C'est beaucoup plus technique‚ ça demande une mise en place plus importante‚ et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers d'animations qui contiennent courbes d'interpellation pour différents cibles de bush a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes génériques vers le personnage - et on peut voir sur ce nouvel alignement‚ en utilisant ces phonèmes adaptés‚ que cet alignement est meilleur puisque le ''m''est bien aligné et le ''in''derrière également· Conçu pour les dessins animés traditionnels en 2D le logiciel de SYNC MAGIC a aussi été couplé avec les principaux logiciels de synthèse 3D· En animation 2D on va varier entre un nombre fini de bouches‚ et en 3D on des courbes d'animation qui vont interpoler différentes cibles de morphing· C'est beaucoup plus technique‚ ça demande une mise en place plus importante‚ et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers d'animations qui contiennent des courbes d'interpolation pour différentes cibles de bouches a nous notre système d'animation interne c'est un outil qui nous permet de visualiser les courants et de les éditer le texte des données phonétique et on a aussi des courbes en des de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes génériques vers le personnage - et on peut voir sur ce nouvel alignement‚ en utilisant ces phonèmes adaptés‚ que cet alignement est meilleur puisque le ''m''est bien aligné et le ''in''derrière également· Conçu pour les dessins animés traditionnels en 2D le logiciel de SYNC MAGIC a aussi été couplé avec les principaux logiciels de synthèse 3D· En animation 2D on va varier entre un nombre fini de bouches‚ et en 3D on des courbes d'animation qui vont interpoler différentes cibles de morphing· C'est beaucoup plus technique‚ ça demande une mise en place plus importante‚ et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers d'animations qui contiennent des courbes d'interpolation pour différentes cibles de bouches On a nous notre système d'animation interne‚ c'est un outil qui nous permet de visualiser les courbes et de les éditer‚ on a le texte‚ les données phonétiques‚ et on a aussi les courbes‚ c'est des courbes de béziers c'est un personnage euh de test pour euh des tests télésat initial qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes génériques vers le personnage - et on peut voir sur ce nouvel alignement‚ en utilisant ces phonèmes adaptés‚ que cet alignement est meilleur puisque le ''m''est bien aligné et le ''in''derrière également· Conçu pour les dessins animés traditionnels en 2D le logiciel de SYNC MAGIC a aussi été couplé avec les principaux logiciels de synthèse 3D· En animation 2D on va varier entre un nombre fini de bouches‚ et en 3D on des courbes d'animation qui vont interpoler différentes cibles de morphing· C'est beaucoup plus technique‚ ça demande une mise en place plus importante‚ et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers d'animations qui contiennent des courbes d'interpolation pour différentes cibles de bouches On a nous notre système d'animation interne‚ c'est un outil qui nous permet de visualiser les courbes et de les éditer‚ on a le texte‚ les données phonétiques‚ et on a aussi les courbes‚ c'est des courbes de béziers Ca c'est un personnage de test pour des tests et des setups initiales qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels on envisage de créer des foyers pour différents logés sial pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes génériques vers le personnage - et on peut voir sur ce nouvel alignement‚ en utilisant ces phonèmes adaptés‚ que cet alignement est meilleur puisque le ''m''est bien aligné et le ''in''derrière également· Conçu pour les dessins animés traditionnels en 2D le logiciel de SYNC MAGIC a aussi été couplé avec les principaux logiciels de synthèse 3D· En animation 2D on va varier entre un nombre fini de bouches‚ et en 3D on des courbes d'animation qui vont interpoler différentes cibles de morphing· C'est beaucoup plus technique‚ ça demande une mise en place plus importante‚ et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers d'animations qui contiennent des courbes d'interpolation pour différentes cibles de bouches On a nous notre système d'animation interne‚ c'est un outil qui nous permet de visualiser les courbes et de les éditer‚ on a le texte‚ les données phonétiques‚ et on a aussi les courbes‚ c'est des courbes de béziers Ca c'est un personnage de test pour des tests et des setups initiales qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels ensuite on envisage de créer des plug-in's pour différents logiciels pour que des sociétés qui en des productions courtes puissent faire eux même tout le type de chez chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes génériques vers le personnage - et on peut voir sur ce nouvel alignement‚ en utilisant ces phonèmes adaptés‚ que cet alignement est meilleur puisque le ''m''est bien aligné et le ''in''derrière également· Conçu pour les dessins animés traditionnels en 2D le logiciel de SYNC MAGIC a aussi été couplé avec les principaux logiciels de synthèse 3D· En animation 2D on va varier entre un nombre fini de bouches‚ et en 3D on des courbes d'animation qui vont interpoler différentes cibles de morphing· C'est beaucoup plus technique‚ ça demande une mise en place plus importante‚ et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers d'animations qui contiennent des courbes d'interpolation pour différentes cibles de bouches On a nous notre système d'animation interne‚ c'est un outil qui nous permet de visualiser les courbes et de les éditer‚ on a le texte‚ les données phonétiques‚ et on a aussi les courbes‚ c'est des courbes de béziers Ca c'est un personnage de test pour des tests et des setups initiales qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels ensuite on envisage de créer des plug-in's pour différents logiciels pour que des sociétés qui ont des productions courtes puissent faire eux même tout le pipe-line de lip-sync chez eux on a fini le niveau travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes génériques vers le personnage - et on peut voir sur ce nouvel alignement‚ en utilisant ces phonèmes adaptés‚ que cet alignement est meilleur puisque le ''m''est bien aligné et le ''in''derrière également· Conçu pour les dessins animés traditionnels en 2D le logiciel de SYNC MAGIC a aussi été couplé avec les principaux logiciels de synthèse 3D· En animation 2D on va varier entre un nombre fini de bouches‚ et en 3D on des courbes d'animation qui vont interpoler différentes cibles de morphing· C'est beaucoup plus technique‚ ça demande une mise en place plus importante‚ et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers d'animations qui contiennent des courbes d'interpolation pour différentes cibles de bouches On a nous notre système d'animation interne‚ c'est un outil qui nous permet de visualiser les courbes et de les éditer‚ on a le texte‚ les données phonétiques‚ et on a aussi les courbes‚ c'est des courbes de béziers Ca c'est un personnage de test pour des tests et des setups initiales qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels ensuite on envisage de créer des plug-in's pour différents logiciels pour que des sociétés qui ont des productions courtes puissent faire eux même tout le pipe-line de lip-sync chez eux ''ouf on a fini le niveau''travaillons actuellement euh du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes génériques vers le personnage - et on peut voir sur ce nouvel alignement‚ en utilisant ces phonèmes adaptés‚ que cet alignement est meilleur puisque le ''m''est bien aligné et le ''in''derrière également· Conçu pour les dessins animés traditionnels en 2D le logiciel de SYNC MAGIC a aussi été couplé avec les principaux logiciels de synthèse 3D· En animation 2D on va varier entre un nombre fini de bouches‚ et en 3D on des courbes d'animation qui vont interpoler différentes cibles de morphing· C'est beaucoup plus technique‚ ça demande une mise en place plus importante‚ et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers d'animations qui contiennent des courbes d'interpolation pour différentes cibles de bouches On a nous notre système d'animation interne‚ c'est un outil qui nous permet de visualiser les courbes et de les éditer‚ on a le texte‚ les données phonétiques‚ et on a aussi les courbes‚ c'est des courbes de béziers Ca c'est un personnage de test pour des tests et des setups initiales qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels ensuite on envisage de créer des plug-in's pour différents logiciels pour que des sociétés qui ont des productions courtes puissent faire eux même tout le pipe-line de lip-sync chez eux ''ouf on a fini le niveau''Nous travaillons actuellement du canada jusqu'en corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes génériques vers le personnage - et on peut voir sur ce nouvel alignement‚ en utilisant ces phonèmes adaptés‚ que cet alignement est meilleur puisque le ''m''est bien aligné et le ''in''derrière également· Conçu pour les dessins animés traditionnels en 2D le logiciel de SYNC MAGIC a aussi été couplé avec les principaux logiciels de synthèse 3D· En animation 2D on va varier entre un nombre fini de bouches‚ et en 3D on des courbes d'animation qui vont interpoler différentes cibles de morphing· C'est beaucoup plus technique‚ ça demande une mise en place plus importante‚ et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers d'animations qui contiennent des courbes d'interpolation pour différentes cibles de bouches On a nous notre système d'animation interne‚ c'est un outil qui nous permet de visualiser les courbes et de les éditer‚ on a le texte‚ les données phonétiques‚ et on a aussi les courbes‚ c'est des courbes de béziers Ca c'est un personnage de test pour des tests et des setups initiales qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels ensuite on envisage de créer des plug-in's pour différents logiciels pour que des sociétés qui ont des productions courtes puissent faire eux même tout le pipe-line de lip-sync chez eux ''ouf on a fini le niveau''Nous travaillons actuellement du Canada jusqu'en Corée un avec des clients qui se trouvent la plupart des pays producteurs de dessins animés nous produisons à peu près euh entre trois et cinq heures euh de par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes génériques vers le personnage - et on peut voir sur ce nouvel alignement‚ en utilisant ces phonèmes adaptés‚ que cet alignement est meilleur puisque le ''m''est bien aligné et le ''in''derrière également· Conçu pour les dessins animés traditionnels en 2D le logiciel de SYNC MAGIC a aussi été couplé avec les principaux logiciels de synthèse 3D· En animation 2D on va varier entre un nombre fini de bouches‚ et en 3D on des courbes d'animation qui vont interpoler différentes cibles de morphing· C'est beaucoup plus technique‚ ça demande une mise en place plus importante‚ et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers d'animations qui contiennent des courbes d'interpolation pour différentes cibles de bouches On a nous notre système d'animation interne‚ c'est un outil qui nous permet de visualiser les courbes et de les éditer‚ on a le texte‚ les données phonétiques‚ et on a aussi les courbes‚ c'est des courbes de béziers Ca c'est un personnage de test pour des tests et des setups initiales qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels ensuite on envisage de créer des plug-in's pour différents logiciels pour que des sociétés qui ont des productions courtes puissent faire eux même tout le pipe-line de lip-sync chez eux ''ouf on a fini le niveau''Nous travaillons actuellement du Canada jusqu'en Corée un avec des clients qui se trouvent dans la plupart des pays producteurs de dessins animés· Nous produisons à peu près entre trois et cinq heures euh de lip sync par jour nous travaillons aisément sur vingt cinq productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes génériques vers le personnage - et on peut voir sur ce nouvel alignement‚ en utilisant ces phonèmes adaptés‚ que cet alignement est meilleur puisque le ''m''est bien aligné et le ''in''derrière également· Conçu pour les dessins animés traditionnels en 2D le logiciel de SYNC MAGIC a aussi été couplé avec les principaux logiciels de synthèse 3D· En animation 2D on va varier entre un nombre fini de bouches‚ et en 3D on des courbes d'animation qui vont interpoler différentes cibles de morphing· C'est beaucoup plus technique‚ ça demande une mise en place plus importante‚ et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers d'animations qui contiennent des courbes d'interpolation pour différentes cibles de bouches On a nous notre système d'animation interne‚ c'est un outil qui nous permet de visualiser les courbes et de les éditer‚ on a le texte‚ les données phonétiques‚ et on a aussi les courbes‚ c'est des courbes de béziers Ca c'est un personnage de test pour des tests et des setups initiales qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels ensuite on envisage de créer des plug-in's pour différents logiciels pour que des sociétés qui ont des productions courtes puissent faire eux même tout le pipe-line de lip-sync chez eux ''ouf on a fini le niveau''Nous travaillons actuellement du Canada jusqu'en Corée un avec des clients qui se trouvent dans la plupart des pays producteurs de dessins animés· Nous produisons à peu près entre trois et cinq heures euh de lip sync par jour· Nous travaillons aisément sur 25 productions en simultané le bac innovation technologique nous permet constamment d'être numéro un et cela s'entretient donc y il a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes génériques vers le personnage - et on peut voir sur ce nouvel alignement‚ en utilisant ces phonèmes adaptés‚ que cet alignement est meilleur puisque le ''m''est bien aligné et le ''in''derrière également· Conçu pour les dessins animés traditionnels en 2D le logiciel de SYNC MAGIC a aussi été couplé avec les principaux logiciels de synthèse 3D· En animation 2D on va varier entre un nombre fini de bouches‚ et en 3D on des courbes d'animation qui vont interpoler différentes cibles de morphing· C'est beaucoup plus technique‚ ça demande une mise en place plus importante‚ et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers d'animations qui contiennent des courbes d'interpolation pour différentes cibles de bouches On a nous notre système d'animation interne‚ c'est un outil qui nous permet de visualiser les courbes et de les éditer‚ on a le texte‚ les données phonétiques‚ et on a aussi les courbes‚ c'est des courbes de béziers Ca c'est un personnage de test pour des tests et des setups initiales qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels ensuite on envisage de créer des plug-in's pour différents logiciels pour que des sociétés qui ont des productions courtes puissent faire eux même tout le pipe-line de lip-sync chez eux ''ouf on a fini le niveau''Nous travaillons actuellement du Canada jusqu'en Corée un avec des clients qui se trouvent dans la plupart des pays producteurs de dessins animés· Nous produisons à peu près entre trois et cinq heures euh de lip sync par jour· Nous travaillons aisément sur 25 productions en simultané L'innovation technologique nous permet constamment d'être numéro 1 et cela s'entretient· Donc il y a beaucoup de chemin à faire beaucoup de doute à produire beaucoup de de de de modernité à partir de ce là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes génériques vers le personnage - et on peut voir sur ce nouvel alignement‚ en utilisant ces phonèmes adaptés‚ que cet alignement est meilleur puisque le ''m''est bien aligné et le ''in''derrière également· Conçu pour les dessins animés traditionnels en 2D le logiciel de SYNC MAGIC a aussi été couplé avec les principaux logiciels de synthèse 3D· En animation 2D on va varier entre un nombre fini de bouches‚ et en 3D on des courbes d'animation qui vont interpoler différentes cibles de morphing· C'est beaucoup plus technique‚ ça demande une mise en place plus importante‚ et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers d'animations qui contiennent des courbes d'interpolation pour différentes cibles de bouches On a nous notre système d'animation interne‚ c'est un outil qui nous permet de visualiser les courbes et de les éditer‚ on a le texte‚ les données phonétiques‚ et on a aussi les courbes‚ c'est des courbes de béziers Ca c'est un personnage de test pour des tests et des setups initiales qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels ensuite on envisage de créer des plug-in's pour différents logiciels pour que des sociétés qui ont des productions courtes puissent faire eux même tout le pipe-line de lip-sync chez eux ''ouf on a fini le niveau''Nous travaillons actuellement du Canada jusqu'en Corée un avec des clients qui se trouvent dans la plupart des pays producteurs de dessins animés· Nous produisons à peu près entre trois et cinq heures euh de lip sync par jour· Nous travaillons aisément sur 25 productions en simultané L'innovation technologique nous permet constamment d'être numéro 1 et cela s'entretient· Donc il y a encore beaucoup de chemin à faire‚ beaucoup d'outils à produire‚ beaucoup de modernité à apporter‚ là donc moi je vois encore une coopération longue
Chaque diffuseur‚ chaque chaîne‚ a un quota de programmes Jeunesse‚ et dans ces programmes jeunesse l'animation tient une part importante‚ on peut parler de 80 pour cent de programmes jeunesses sous forme de dessins animés· Donc le marché de l'animation c'est un marché assez stable‚ comme on dit tant qu'il y aura des enfants il faudra produire des dessins animés‚ La fabrication d'un dessin animé en 2D obéit à des règles bien codifiées qui définissent les étapes successives du travail· Chacune de ces étapes peut être confiée à un prestataire différent· En Europe on peut dire qu'il y a‚ tout tout ce qui est‚ tout l'aspect créatif‚ conceptuel et le reste est fait par des dessinateurs‚ des petites mains‚ parce que c'est un travail rébarbatif‚ en Asie· L'enregistrement des dialogues a lieu dès le début‚ pendant la phase de préproduction· Ce sont ces dialogues enregistrés qui imposent ensuite le rythme de l'animation des personnages‚ ils servent en particulier à la synchronisation labiale‚ ou ''lip synch''· ''C'est la bête qui vous a mis dans cet état''''Non‚ non‚ c'est un mouton''Il s'agit de déterminer les formes de bouches qui devront ensuite être dessinées successivement de façon à correspondre aux paroles prononcées C'est alors que le dessin animé rencontre la phonétique En effet‚ chaque langue parlée comporte un nombre limité de sons élémentaires‚ appelés phonèmes· En français par exemple‚ il existe 36 phonèmes· Il y a plusieurs catégories de sons‚ la première est celle des voyelles‚ ici‚ on a deux voyelles‚ donc la première c'est le A la deuxième est un I· Ensuite‚ eh bien il y a des consonnes‚ donc il y a 3 types de consonnes‚ des fricatives‚ comme ici donc le ''ze''· La deuxième classe de consonnes est celle des occlusives‚ donc par exemple ''pe''ici ou encore ''te''La dernière catégorie de sons est celle des semi-voyelles ou semi-consonnes comme ''le''''me''''ne''''re''qui peuvent prendre soit les caractéristiques d'une voyelle soit celles d'une consonne· La prononciation de chacun de ces phonèmes induit un mouvement des lèvres qui peut être semblable pour des phonèmes différents· Pour les 36 phonèmes du français‚ 12 positions de lèvres ont été répertoriées· et les animateurs disposent en général de six à huit formes de bouche pour les représenter C'est pour prendre en charge le lip-synch qu'a été créée la société SYNCH MAGIC Cette cette idée-là est venue par un de nos associés qui est Andreas Karl-Heinz qui avait travaillé dans des studios d'animation 3D et donc lui étant développeur d'outils informatiques‚ il a toujours dit que un lip-sync bien fait ne se remarque pas mais le contraire pouvait conduire à la catastrophe· Moi j'ai toujours été intéressé par combiner l'art de l'animation et les nouvelles technologies et pendant un parcours professionnel où j'ai travaillé dans différents studios d'animation j'ai vu que il y avait un besoin et un manque· Cette étape de travail était faite à la main‚ c'était long‚ fastidieux‚ donc il fallait industrialiser ce secteur· Sync Magic a donc développé un logiciel en partenariat avec l'équipe de recherche PAROLE et elle utilise ce logiciel en tant que prestataire pour les producteurs de dessins animés· Nous transformons le langage parlé en un langage phonétique codé imprimé sur papier· Tout d'abord nous avons permis un gain de temps considérable‚ nous avons porté la production de lip sync d'un 26'de 7 jours à une journée Ça c'est le premier aspect· Le deuxième aspect c'est un gain au niveau qualitatif - nous travaillons au dixième d'image près‚ en sachant qu'il y a 25 images par seconde vous vous rendez compte un peu du degré de précision et c'est sur la‚ c'est la précision qui nous garantit la qualité· Pour chaque production‚ le studio fournit deux fichiers - le fichier texte correspondant au dialogue‚ et le fichier son enregistré‚ ainsi que les bouches de référence codées par des lettres de l'alphabet qui sont représentées sur une planche appelée mouse chart· La reconnaissance phonétique va analyser d'une part le texte et d'autre part le son‚ donc elle va s'opérer au moment où nous allons décider d'appliquer telle portion de texte à telle portion de son· Une fois que l'analyse phonétique est executée L'interface va présenter une proposition d'alignement des phonèmes sur une règle phonétique· Cet alignement de phonétique fera correspondre ultérieurement les positions de bouche adéquates Les lettres‚ indiquant les bouches à dessiner‚ sont imprimées sur les feuilles d'exposition‚ personnalisées selon les souhaits de chaque producteur client· Chaque ligne correspond à une image‚ vous avez 25 images par seconde‚ souvent les feuilles d'exposition représentent deux à trois secondes· Vous avez le nom du personnage‚ les mots qui sont prononcés et la décomposition de ces mots en phonèmes‚ à l'image près· Pour les dessinateurs‚ vous avez la correspondance des codes bouches‚ donc le dessinateur aura image par image‚ le code de la bouche à dessiner ''Ouais‚ je vais encore être la vedette à l'école''nous livrons aussi une AVI qui permet de visualiser le lip sync d'un des personnages de référence de la série‚ sur la durée globale de l'épisode· C'est un moyen que nous avons trouvé pour valider notre travail systématiquement· La technologie sous-jacente repose sur les recherches menées à Nancy par l'équipe PAROLES· L'objectif de la reconnaissance de la parole c'est d'arriver à retrouver les sons et aussi donc à segmenter les sons· La reconnaissance de la parole reste un défi scientifique qui n'a pas reçu une réponse‚ à Nancy on travaille sur ce problème depuis le début des années 70 avec plusieurs types d'approches - au début des approches relevant de la programmation dynamique‚ puis ensuite des approches relevant d'une approche phonétique et maintenant‚ depuis plus de quinze ans‚ une approche probabiliste à base de modèle de Markov et d'autres types de modèles probabilistes aussi· Il nous paraissait important de pouvoir communiquer avec une équipe restreinte ce qui a facilité le dialogue et la la mise en place de cette technologie dans notre structure· L'intérêt pour nous de participer à un tel projet est de pouvoir améliorer les techniques de reconnaissance de la parole‚ et en particulier de rendre un système de reconnaissance plus robuste aux changements de locuteurs· Il faut en effet savoir que les locuteurs et les acteurs qui jouent dans les dessins animés adoptent des voix qui sont des fois caricaturales‚ par exemple une voix de locuteur très masculine‚ une voix de locutrice très féminine‚ une voix de bébé‚ une voix de monstre‚ par conséquent il est très important que les modèles de Markov soient adaptés à la fois à la voix masculine‚ à la voix féminine‚ à la voix de monstre‚ ou à la voix de bébé‚ et ça c'est un sujet qui est très compliqué en soi· Là on va essayer de montrer quelques différents types de voix de dessin animé‚ donc sur cet écran on voit ici le signal sonore y égale f de t y=f(t)‚ et sur cette partie ici on voit la représentation spectrographique‚ et tous les 1000 Hertz on a une ligne noire‚ et plus la couleur est proche du rouge foncé plus l'énergie a la fréquence correspondante· Ici on voit l'alignement qui a été trouvé automatiquement par le système‚ qui indique‚ pour chacun des phonèmes trouvés‚ le phonème trouvé‚ et son début‚ et sa fin· ''Compris Joe''ça c'est la première‚ ça c'est la deuxième ''Compris Joe''ça c'est la troisième ''Compris Joe''On voit bien qu'y il a trois intonations différentes et pourtant le système est arrivé pratiquement à chaque fois à trouver correctement la position des différents phonèmes· Nous venons de voir que notre système était capable d'aligner le texte d'une phrase sur différentes prononciations - ce n'est pas toujours possible‚ voici un exemple sur cet écran où vous avez une phrase qui est celle-ci ''mince alors''et on voit sur l'écran que notre système n'a pas aligné correctement les phonèmes puisque le ''m''suivi du ''in'' de ''mince alors''on voit le que le "m" a pris trop de place par rapport au ''in''Pourquoi ceci - tout simplement parce que nous utilisons des modèles de phonèmes du français qui sont des modèles de Markov‚ qui ont été calculés sur des milliers de phrases de corpus de données‚ et on obtient donc des modèles moyens de tous les phonèmes du français‚ donc le terme moyen fait qu'on n'arrive pas forcément à bien aligner· Donc dans une deuxième partie‚ notre système permet de s'adapter‚ d'adapter ces phonèmes génériques à la voix d'un personnage· Pour cela on utilise une dizaine de secondes de la voix du personnage pour adapter les phonèmes génériques vers le personnage - et on peut voir sur ce nouvel alignement‚ en utilisant ces phonèmes adaptés‚ que cet alignement est meilleur puisque le ''m''est bien aligné et le ''in''derrière également· Conçu pour les dessins animés traditionnels en 2D le logiciel de SYNC MAGIC a aussi été couplé avec les principaux logiciels de synthèse 3D· En animation 2D on va varier entre un nombre fini de bouches‚ et en 3D on des courbes d'animation qui vont interpoler différentes cibles de morphing· C'est beaucoup plus technique‚ ça demande une mise en place plus importante‚ et le résultat final n'est pas des feuilles d'exposition mais plutôt des fichiers d'animations qui contiennent des courbes d'interpolation pour différentes cibles de bouches On a nous notre système d'animation interne‚ c'est un outil qui nous permet de visualiser les courbes et de les éditer‚ on a le texte‚ les données phonétiques‚ et on a aussi les courbes‚ c'est des courbes de béziers Ca c'est un personnage de test pour des tests et des setups initiales qu'on a fait pour un client après on est capable de produire des données adaptées aux différents outils de logiciels ensuite on envisage de créer des plug-in's pour différents logiciels pour que des sociétés qui ont des productions courtes puissent faire eux même tout le pipe-line de lip-sync chez eux ''ouf on a fini le niveau''Nous travaillons actuellement du Canada jusqu'en Corée un avec des clients qui se trouvent dans la plupart des pays producteurs de dessins animés· Nous produisons à peu près entre trois et cinq heures euh de lip sync par jour· Nous travaillons aisément sur 25 productions en simultané L'innovation technologique nous permet constamment d'être numéro 1 et cela s'entretient· Donc il y a encore beaucoup de chemin à faire‚ beaucoup d'outils à produire‚ beaucoup de modernité à apporter‚ donc moi je vois encore une coopération longue·
Inria-540-Anim_sur_parole-fr.mp4

Format : .mp4
436,3 Mo
768 x 576 pixels
Fichier H264. Meilleure résolution disponible
Sélection
Voir Selection
Déposer ici pour retirer de la sélection