tous les documents
  • tous les documents
  • Images
  • Films
  • Rushes
  • Publications
  • Audio
Recherche avancée
Ensemble de recherche :
tous les documents
  • tous les documents
  • Images
  • Films
  • Rushes
  • Publications
  • Audio
Recherche par couleur
Ensemble de recherche :
tous les documents
  • tous les documents
  • Images
  • Films
  • Rushes
  • Publications
  • Audio
Code HTML Copiez-collez le code ci-dessous pour l'intégrer dans une page Web.
Titre :
Perception tridimensionnelle d'une scène dynamique à partir de la stéréoscopie et du mouvement
Légende - Résumé :
Le film présente de façon didactique les travaux menés par l'auteur dans le domaine de l'analyse de séquences d'images (analyse de la structure et du mouvement 3D).
- Modélisation de l'incertitude d'un segment de droite
- Suivi et segmentation d'objets dans une longue séquence stéréoscopique
- Analyse du mouvement à partir de deux vues stéréoscopiques
- Construction du modèle de l'environnement intérieur par fusion
- Navigation visuelle et exploration de l'environnement intérieur
- Coopération entre la stéréoscopique et le mouvement
- Recalage de courbes 3D de forme générale
- Construction du modèle numérique de terrain pour l'exploration planétaire
- Mouvement d'un système stéréo avec paramètres extrinsèques inconnus
- Mouvement d'un système stéréo non calibré : autocalibration et reconstruction métrique
- Mise en correspondance d'images robuste
- Mouvement et structure à partir de segments de droite entre deux images perspectives
Nom de fichier :
Inria-283-Perceptio_tri-fr.mp4
Titre :
Perception tridimensionnelle d'une scène dynamique à partir de la stéréoscopie et du mouvement
Année :
1994
Durée (min) :
00:26:42
Publications :
https://videotheque.inria.fr/videotheque/doc/283
Autres versions :
Master VF : 283
Master VEN :
Autre : Lien externe :
Lien Equipe-projet :
Lien Centre de Recherche :
Mots clés :
N° master :
283
Durée :
26 min 42 sec
IsyTag :
- - 2 - 2ème - 3D - appariement - appariements - caméra - corrélation - correspondance - différent - distance - épipolaire - géométrie - groupe - image - mise - mouvement - nuage - pixels - point - recalage - segment - segments - stéréo - stéréoscopique - stéréovision - superposition - système - translation - vue
Transcription automatiqu :
stéréo se copie le mouvement sont deux moyens importants en pour le monde très dimensionné et dynamique qui nous entoure nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'et stéréo sco pic ou mon oculaire segment de droite sont des primitives importantes en vision par ordinateur les représentations classiques ne caractérisent pas parfaitement les incertitudes nous proposons ici une nouvelle représentation appropriée à la vision trois d elipsos vides illustre les incertitudes sur les extrémités calculée par la stéréo a partir de celle-ci on peut calculer l'incertitude sur le point milieu en anvers les extrémités ou le point milieu ne sont pas stables pour diverses raisons le point milieu d'un segment dans d'autres vu peut-être n'importe quel point sur le segment nous le définissons donc comme un point aléatoire qui peut bouger le long du segment modélisation nous permet d'identifier des segment dans des vues différentes même si leurs longueurs sont très différentes système stéréo ce copycat est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très court problème de mise en correspondance est alors relativement simple la continuité du mouvement peut être utilisée pour prédire l'occurrence de primitifs dans le futur et la recherche de correspondances est effectuée dans un volume prédit premier groupe d'objets au dessus de la table tournante est soumis à une rotation et une translation le deuxième au dessous est soumis seulement à une translation le troisième est statique ellipse représente l'incertitude des points milieux des segments reconstruits segment ne change pas parce que l'on n'a pas la connaissance du mouvement on suppose donc que le mouvement est nul mais les éclipses sont grandes ce qui indique la méconnaissance du mouvement effectue la mise en correspondance de segment et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceau taille des ellipse a diminué on a acquis la connaissance du mouvement notre stratégie de mise en correspondance donne plus de segment prédit la plupart des segments la prédiction et l'observation se superposent bien avec seulement deux vu segment dû au faux a pareillement disparaissent au fur et à mesure au mouvement estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets en rotation et translation un autre en pure translation et le troisième est statique la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vue de dessus deux vu stéréo sco pics pouvant être très différentes l'une de l'autre notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux buts deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde très dimensionné et dynamique qui nous entoure nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'et stéréo sco pic ou mon oculaire segment de droite sont des primitives importantes en vision par ordinateur les représentations classiques ne caractérisent pas parfaitement les incertitudes nous proposons ici une nouvelle représentation appropriée à la vision trois d elipsos vides illustre les incertitudes sur les extrémités calculée par la stéréo a partir de celle-ci on peut calculer l'incertitude sur le point milieu en anvers les extrémités ou le point milieu ne sont pas stables pour diverses raisons le point milieu d'un segment dans d'autres vu peut-être n'importe quel point sur le segment nous le définissons donc comme un point aléatoire qui peut bouger le long du segment modélisation nous permet d'identifier des segment dans des vues différentes même si leurs longueurs sont très différentes système stéréo ce copycat est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très court problème de mise en correspondance est alors relativement simple la continuité du mouvement peut être utilisée pour prédire l'occurrence de primitifs dans le futur et la recherche de correspondances est effectuée dans un volume prédit premier groupe d'objets au dessus de la table tournante est soumis à une rotation et une translation le deuxième au dessous est soumis seulement à une translation le troisième est statique ellipse représente l'incertitude des points milieux des segments reconstruits segment ne change pas parce que l'on n'a pas la connaissance du mouvement on suppose donc que le mouvement est nul mais les éclipses sont grandes ce qui indique la méconnaissance du mouvement effectue la mise en correspondance de segment et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceau taille des ellipse a diminué on a acquis la connaissance du mouvement notre stratégie de mise en correspondance donne plus de segment prédit la plupart des segments la prédiction et l'observation se superposent bien avec seulement deux vu segment dû au faux a pareillement disparaissent au fur et à mesure au mouvement estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets en rotation et translation un autre en pure translation et le troisième est statique la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vue de dessus deux vu stéréo sco pics pouvant être très différentes l'une de l'autre notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux buts deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires segment de droite sont des primitives importantes en vision par ordinateur les représentations classiques ne caractérisent pas parfaitement les incertitudes nous proposons ici une nouvelle représentation appropriée à la vision trois d elipsos vides illustre les incertitudes sur les extrémités calculée par la stéréo a partir de celle-ci on peut calculer l'incertitude sur le point milieu en anvers les extrémités ou le point milieu ne sont pas stables pour diverses raisons le point milieu d'un segment dans d'autres vu peut-être n'importe quel point sur le segment nous le définissons donc comme un point aléatoire qui peut bouger le long du segment modélisation nous permet d'identifier des segment dans des vues différentes même si leurs longueurs sont très différentes système stéréo ce copycat est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très court problème de mise en correspondance est alors relativement simple la continuité du mouvement peut être utilisée pour prédire l'occurrence de primitifs dans le futur et la recherche de correspondances est effectuée dans un volume prédit premier groupe d'objets au dessus de la table tournante est soumis à une rotation et une translation le deuxième au dessous est soumis seulement à une translation le troisième est statique ellipse représente l'incertitude des points milieux des segments reconstruits segment ne change pas parce que l'on n'a pas la connaissance du mouvement on suppose donc que le mouvement est nul mais les éclipses sont grandes ce qui indique la méconnaissance du mouvement effectue la mise en correspondance de segment et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceau taille des ellipse a diminué on a acquis la connaissance du mouvement notre stratégie de mise en correspondance donne plus de segment prédit la plupart des segments la prédiction et l'observation se superposent bien avec seulement deux vu segment dû au faux a pareillement disparaissent au fur et à mesure au mouvement estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets en rotation et translation un autre en pure translation et le troisième est statique la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vue de dessus deux vu stéréo sco pics pouvant être très différentes l'une de l'autre notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux buts deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D elipsos vides illustre les incertitudes sur les extrémités calculée par la stéréo a partir de celle-ci on peut calculer l'incertitude sur le point milieu en anvers les extrémités ou le point milieu ne sont pas stables pour diverses raisons le point milieu d'un segment dans d'autres vu peut-être n'importe quel point sur le segment nous le définissons donc comme un point aléatoire qui peut bouger le long du segment modélisation nous permet d'identifier des segment dans des vues différentes même si leurs longueurs sont très différentes système stéréo ce copycat est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très court problème de mise en correspondance est alors relativement simple la continuité du mouvement peut être utilisée pour prédire l'occurrence de primitifs dans le futur et la recherche de correspondances est effectuée dans un volume prédit premier groupe d'objets au dessus de la table tournante est soumis à une rotation et une translation le deuxième au dessous est soumis seulement à une translation le troisième est statique ellipse représente l'incertitude des points milieux des segments reconstruits segment ne change pas parce que l'on n'a pas la connaissance du mouvement on suppose donc que le mouvement est nul mais les éclipses sont grandes ce qui indique la méconnaissance du mouvement effectue la mise en correspondance de segment et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceau taille des ellipse a diminué on a acquis la connaissance du mouvement notre stratégie de mise en correspondance donne plus de segment prédit la plupart des segments la prédiction et l'observation se superposent bien avec seulement deux vu segment dû au faux a pareillement disparaissent au fur et à mesure au mouvement estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets en rotation et translation un autre en pure translation et le troisième est statique la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vue de dessus deux vu stéréo sco pics pouvant être très différentes l'une de l'autre notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux buts deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo a partir de celle-ci on peut calculer l'incertitude sur le point milieu en anvers les extrémités ou le point milieu ne sont pas stables pour diverses raisons le point milieu d'un segment dans d'autres vu peut-être n'importe quel point sur le segment nous le définissons donc comme un point aléatoire qui peut bouger le long du segment modélisation nous permet d'identifier des segment dans des vues différentes même si leurs longueurs sont très différentes système stéréo ce copycat est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très court problème de mise en correspondance est alors relativement simple la continuité du mouvement peut être utilisée pour prédire l'occurrence de primitifs dans le futur et la recherche de correspondances est effectuée dans un volume prédit premier groupe d'objets au dessus de la table tournante est soumis à une rotation et une translation le deuxième au dessous est soumis seulement à une translation le troisième est statique ellipse représente l'incertitude des points milieux des segments reconstruits segment ne change pas parce que l'on n'a pas la connaissance du mouvement on suppose donc que le mouvement est nul mais les éclipses sont grandes ce qui indique la méconnaissance du mouvement effectue la mise en correspondance de segment et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceau taille des ellipse a diminué on a acquis la connaissance du mouvement notre stratégie de mise en correspondance donne plus de segment prédit la plupart des segments la prédiction et l'observation se superposent bien avec seulement deux vu segment dû au faux a pareillement disparaissent au fur et à mesure au mouvement estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets en rotation et translation un autre en pure translation et le troisième est statique la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vue de dessus deux vu stéréo sco pics pouvant être très différentes l'une de l'autre notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux buts deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment modélisation nous permet d'identifier des segment dans des vues différentes même si leurs longueurs sont très différentes système stéréo ce copycat est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très court problème de mise en correspondance est alors relativement simple la continuité du mouvement peut être utilisée pour prédire l'occurrence de primitifs dans le futur et la recherche de correspondances est effectuée dans un volume prédit premier groupe d'objets au dessus de la table tournante est soumis à une rotation et une translation le deuxième au dessous est soumis seulement à une translation le troisième est statique ellipse représente l'incertitude des points milieux des segments reconstruits segment ne change pas parce que l'on n'a pas la connaissance du mouvement on suppose donc que le mouvement est nul mais les éclipses sont grandes ce qui indique la méconnaissance du mouvement effectue la mise en correspondance de segment et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceau taille des ellipse a diminué on a acquis la connaissance du mouvement notre stratégie de mise en correspondance donne plus de segment prédit la plupart des segments la prédiction et l'observation se superposent bien avec seulement deux vu segment dû au faux a pareillement disparaissent au fur et à mesure au mouvement estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets en rotation et translation un autre en pure translation et le troisième est statique la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vue de dessus deux vu stéréo sco pics pouvant être très différentes l'une de l'autre notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux buts deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes système stéréo ce copycat est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très court problème de mise en correspondance est alors relativement simple la continuité du mouvement peut être utilisée pour prédire l'occurrence de primitifs dans le futur et la recherche de correspondances est effectuée dans un volume prédit premier groupe d'objets au dessus de la table tournante est soumis à une rotation et une translation le deuxième au dessous est soumis seulement à une translation le troisième est statique ellipse représente l'incertitude des points milieux des segments reconstruits segment ne change pas parce que l'on n'a pas la connaissance du mouvement on suppose donc que le mouvement est nul mais les éclipses sont grandes ce qui indique la méconnaissance du mouvement effectue la mise en correspondance de segment et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceau taille des ellipse a diminué on a acquis la connaissance du mouvement notre stratégie de mise en correspondance donne plus de segment prédit la plupart des segments la prédiction et l'observation se superposent bien avec seulement deux vu segment dû au faux a pareillement disparaissent au fur et à mesure au mouvement estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets en rotation et translation un autre en pure translation et le troisième est statique la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vue de dessus deux vu stéréo sco pics pouvant être très différentes l'une de l'autre notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux buts deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit premier groupe d'objets au dessus de la table tournante est soumis à une rotation et une translation le deuxième au dessous est soumis seulement à une translation le troisième est statique ellipse représente l'incertitude des points milieux des segments reconstruits segment ne change pas parce que l'on n'a pas la connaissance du mouvement on suppose donc que le mouvement est nul mais les éclipses sont grandes ce qui indique la méconnaissance du mouvement effectue la mise en correspondance de segment et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceau taille des ellipse a diminué on a acquis la connaissance du mouvement notre stratégie de mise en correspondance donne plus de segment prédit la plupart des segments la prédiction et l'observation se superposent bien avec seulement deux vu segment dû au faux a pareillement disparaissent au fur et à mesure au mouvement estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets en rotation et translation un autre en pure translation et le troisième est statique la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vue de dessus deux vu stéréo sco pics pouvant être très différentes l'une de l'autre notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux buts deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique ellipse représente l'incertitude des points milieux des segments reconstruits segment ne change pas parce que l'on n'a pas la connaissance du mouvement on suppose donc que le mouvement est nul mais les éclipses sont grandes ce qui indique la méconnaissance du mouvement effectue la mise en correspondance de segment et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceau taille des ellipse a diminué on a acquis la connaissance du mouvement notre stratégie de mise en correspondance donne plus de segment prédit la plupart des segments la prédiction et l'observation se superposent bien avec seulement deux vu segment dû au faux a pareillement disparaissent au fur et à mesure au mouvement estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets en rotation et translation un autre en pure translation et le troisième est statique la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vue de dessus deux vu stéréo sco pics pouvant être très différentes l'une de l'autre notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux buts deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits segment ne change pas parce que l'on n'a pas la connaissance du mouvement on suppose donc que le mouvement est nul mais les éclipses sont grandes ce qui indique la méconnaissance du mouvement effectue la mise en correspondance de segment et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceau taille des ellipse a diminué on a acquis la connaissance du mouvement notre stratégie de mise en correspondance donne plus de segment prédit la plupart des segments la prédiction et l'observation se superposent bien avec seulement deux vu segment dû au faux a pareillement disparaissent au fur et à mesure au mouvement estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets en rotation et translation un autre en pure translation et le troisième est statique la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vue de dessus deux vu stéréo sco pics pouvant être très différentes l'une de l'autre notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux buts deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement effectue la mise en correspondance de segment et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceau taille des ellipse a diminué on a acquis la connaissance du mouvement notre stratégie de mise en correspondance donne plus de segment prédit la plupart des segments la prédiction et l'observation se superposent bien avec seulement deux vu segment dû au faux a pareillement disparaissent au fur et à mesure au mouvement estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets en rotation et translation un autre en pure translation et le troisième est statique la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vue de dessus deux vu stéréo sco pics pouvant être très différentes l'une de l'autre notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux buts deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux taille des ellipse a diminué on a acquis la connaissance du mouvement notre stratégie de mise en correspondance donne plus de segment prédit la plupart des segments la prédiction et l'observation se superposent bien avec seulement deux vu segment dû au faux a pareillement disparaissent au fur et à mesure au mouvement estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets en rotation et translation un autre en pure translation et le troisième est statique la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vue de dessus deux vu stéréo sco pics pouvant être très différentes l'une de l'autre notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux buts deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits la plupart des segments la prédiction et l'observation se superposent bien avec seulement deux vu segment dû au faux a pareillement disparaissent au fur et à mesure au mouvement estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets en rotation et translation un autre en pure translation et le troisième est statique la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vue de dessus deux vu stéréo sco pics pouvant être très différentes l'une de l'autre notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux buts deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues segment dû au faux a pareillement disparaissent au fur et à mesure au mouvement estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets en rotation et translation un autre en pure translation et le troisième est statique la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vue de dessus deux vu stéréo sco pics pouvant être très différentes l'une de l'autre notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux buts deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure au mouvement estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets en rotation et translation un autre en pure translation et le troisième est statique la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vue de dessus deux vu stéréo sco pics pouvant être très différentes l'une de l'autre notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux buts deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets en rotation et translation un autre en pure translation et le troisième est statique la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vue de dessus deux vu stéréo sco pics pouvant être très différentes l'une de l'autre notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux buts deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vue de dessus deux vu stéréo sco pics pouvant être très différentes l'une de l'autre notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux buts deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus deux vu stéréo sco pics pouvant être très différentes l'une de l'autre notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux buts deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues deux triple a d'images sont très différents il y a à peu près deux cents pixels de disparités sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image avons développé une technique de génération et vérification d'hypothèse si paires de segment de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance chaque hypothèse nous calculant une estimation initiale du mouvement qui est ensuite propagée dans toute la seine pour donner plus d'appareils et effectuer une mise à jour du mouvement on choisit l'hypothèse qui donne le plus d'appareils man elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues voici la superposition de deux ensembles de segment avant le recalage on remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande entre les deux après avoir appliqué le mouvement estimé au segment de la première vue on peut les comparer avec ceux de la deuxième la bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé on peut faire la même chose en projetant les segment sur le sol voici la superposition avant le recalage et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondants outre une vue stéréo sco pike fournit ne qu'une information partielle et peu précise sur l'environnement notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréo vision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue notre technique nous mettons les segments en correspondance et calculant le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues la superposition de deux ensembles de segment observés par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage segment sont mis en correspondance et l'on calcule le mouvement entre t de trois nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 nous continuons le procédé de manière instrumentale pour une séquence de trente cinq vus stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo on distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les miens système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer l'instant est un le de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 de vision stéréo sco pic prend une vue panoramique une seule vue ne suffirait pas à la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire environnement perçu et reconstruit en trois dimensions notre estimation du mouvement trois des calculs le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments servait jusqu'alors dans un même repère segment trois des sont projetées sur le sol afin d'augmenter l'efficacité du système de navigation la fusion des segment observés permet de maintenir une carte de d du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol segment de la carte du sol est une de launay l'algorithme est dynamique il insère ou supprime un segment de la triangulaires dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de de Launay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité espace libre sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de de Launay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité régulation est utilisée comme un graphe générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de de Launay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulaire de delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de de Launay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay cette approche les segments sont suivis dans le temps et mis en correspondance stéréo sco pique le mouvement du système stéréo est calculé en évitant la reconstruction de la scène trois et à chaque instant on effectue la mise en correspondance en projetant les segment trois des prédit sur images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images n'y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot segment à parier stéréo et temporelles sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de kumari hans construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance construit ensuite une structure d'arbre minimal les noeuds sont les vecteurs de mouvement la distance de mal à novice est utilisée pour définir la similarité entre les noeuds coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements dans chaque groupe en fusionnent le segment finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit l'approche que nous nous écrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible ces images les chaînes de contour sont détectée nous avons utilisé un système de stéréo vision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen cette animation la disparité est à peu près de cinquante pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels vers la première reconstruction en rouge la deuxième mouvement deux positions étant petits on considère que le point à parier est son voisin plus proche dans l'autre vue on relie les deux points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune analysant les distributions de distance nous éliminerons des appareils man aberrant reste quelques a pareillement mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents les appartements qui restent après l'analyse statistique de distance des appartements sont plus nombreux il y a moins de faux a pareillement les deux vues sont plus cohérentes avec le mouvement estimé après la première réitération qu'avec le mouvement initial douze itait ration il y a convergence un superposition par le mouvement estimé et presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire dans un tel environnement non structuré on ne peut plus utiliser des segments de droite ou même des courbes comme primitive nous utilisons donc la stéréo vision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de pointe trois des on utilise la corrélation le long des lignes est bipolaire horizontal et vertical pour trouver la correspondance le résultat de la stéréo par corrélation plus une région est foncée plus elle est proche des caméras les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation la région est peut être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté la pareillement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion stéréo vision par corrélation reconstruit un nouveau nuage de pointe rendez premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D premiers nuages et représentés par des quadrilatère rouge et le deuxième par des surfaces griser la différence entre eux est relativement grande il faut trouver le déplacement entre les deux positions et mettre les points en correspondance méthode est basée sur une mise en correspondance interactive des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image partis ne sont visibles que dans une des deux positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions deux nuages contiennent donc des informations complémentaires connaissant le déplacement entre deux positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données centre de la seine il y a un tas de cailloux le robot mobile effectue trois déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière mentale à partir des quatre vues stéréo pic les images sont prises par la première caméra et le nt reconstruit est celui de la première position les trous sont dus aux occlusion deuxième est obtenu en fusionnant les deux nuages de points trois d les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière incrémentale à partir des 4 vues stéréoscopiques Les images sont prises par la 1ère caméra et le m n T reconstruit est celui de la première position - Les trous sont dus aux occlusion - Le 2ème m n T est obtenu en fusionnant les 2 nuages de points 3D - Les trous se remplissent davantage troisième est résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière incrémentale à partir des 4 vues stéréoscopiques Les images sont prises par la 1ère caméra et le m n T reconstruit est celui de la première position - Les trous sont dus aux occlusion - Le 2ème m n T est obtenu en fusionnant les 2 nuages de points 3D - Les trous se remplissent davantage ( ) résultat de la fusion des trois nuages de points trois d finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière incrémentale à partir des 4 vues stéréoscopiques Les images sont prises par la 1ère caméra et le m n T reconstruit est celui de la première position - Les trous sont dus aux occlusion - Le 2ème m n T est obtenu en fusionnant les 2 nuages de points 3D - Les trous se remplissent davantage ( ) Le 3ème m n T est le résultat de la fusion des trois nuages de points 3D finale et complet l'ensemble des quatre on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière incrémentale à partir des 4 vues stéréoscopiques Les images sont prises par la 1ère caméra et le m n T reconstruit est celui de la première position - Les trous sont dus aux occlusion - Le 2ème m n T est obtenu en fusionnant les 2 nuages de points 3D - Les trous se remplissent davantage ( ) Le 3ème m n T est le résultat de la fusion des trois nuages de points 3D finale et complet Sur l'ensemble des quatre m n T on voit clairement comment la fusion améliore notre connaissance de la scène dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèque associé à chacune des caméras les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stérile endoscopique de deux caméras on ne connaît pas non plus la contrainte géométrique et bipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière incrémentale à partir des 4 vues stéréoscopiques Les images sont prises par la 1ère caméra et le m n T reconstruit est celui de la première position - Les trous sont dus aux occlusion - Le 2ème m n T est obtenu en fusionnant les 2 nuages de points 3D - Les trous se remplissent davantage ( ) Le 3ème m n T est le résultat de la fusion des trois nuages de points 3D finale et complet Sur l'ensemble des quatre m n T on voit clairement comment la fusion améliore notre connaissance de la scène Dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèques associés à chacune des caméras - Les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stéréoscopique de 2 caméras On ne connaît pas non plus la contrainte géométrique épipolaire technique de corrélation est utilisée pour trouver des candidats à l'appareil man pour chaque point on est obligé de rechercher des appareils dans une grande région la corrélation est mauvaise sur la mir en raison de sa forme répétitives techniques de relaxation qui utilisent le contexte du voisinage est ensuite appliqué pour lever les ambiguïtés d'appareils man les appareils se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière incrémentale à partir des 4 vues stéréoscopiques Les images sont prises par la 1ère caméra et le m n T reconstruit est celui de la première position - Les trous sont dus aux occlusion - Le 2ème m n T est obtenu en fusionnant les 2 nuages de points 3D - Les trous se remplissent davantage ( ) Le 3ème m n T est le résultat de la fusion des trois nuages de points 3D finale et complet Sur l'ensemble des quatre m n T on voit clairement comment la fusion améliore notre connaissance de la scène Dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèques associés à chacune des caméras - Les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stéréoscopique de 2 caméras On ne connaît pas non plus la contrainte géométrique épipolaire Une technique de corrélation est utilisée pour trouver des candidats à l'appariement pour chaque point - On est obligé de rechercher des appariements dans une grande région La corrélation est mauvaise sur la mire en raison de sa forme répétitive Une technique de relaxation qui utilise le contexte du voisinage est ensuite appliquée pour lever les ambiguïtés d'appariement - les appariements se sont considérablement améliorés partir des correspondances établies en calcule la géométrie épis polaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière incrémentale à partir des 4 vues stéréoscopiques Les images sont prises par la 1ère caméra et le m n T reconstruit est celui de la première position - Les trous sont dus aux occlusion - Le 2ème m n T est obtenu en fusionnant les 2 nuages de points 3D - Les trous se remplissent davantage ( ) Le 3ème m n T est le résultat de la fusion des trois nuages de points 3D finale et complet Sur l'ensemble des quatre m n T on voit clairement comment la fusion améliore notre connaissance de la scène Dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèques associés à chacune des caméras - Les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stéréoscopique de 2 caméras On ne connaît pas non plus la contrainte géométrique épipolaire Une technique de corrélation est utilisée pour trouver des candidats à l'appariement pour chaque point - On est obligé de rechercher des appariements dans une grande région La corrélation est mauvaise sur la mire en raison de sa forme répétitive Une technique de relaxation qui utilise le contexte du voisinage est ensuite appliquée pour lever les ambiguïtés d'appariement - les appariements se sont considérablement améliorés A partir des correspondances établies on calcule la géométrie épipolaire on trouve souvent des faux a pareillement principalement due au fait que l'on a utilisé des contraintes rustiques dans corrélation et la relaxation à distance entre les points et leur droit est bipolaire et de dix sept virgule quatre pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière incrémentale à partir des 4 vues stéréoscopiques Les images sont prises par la 1ère caméra et le m n T reconstruit est celui de la première position - Les trous sont dus aux occlusion - Le 2ème m n T est obtenu en fusionnant les 2 nuages de points 3D - Les trous se remplissent davantage ( ) Le 3ème m n T est le résultat de la fusion des trois nuages de points 3D finale et complet Sur l'ensemble des quatre m n T on voit clairement comment la fusion améliore notre connaissance de la scène Dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèques associés à chacune des caméras - Les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stéréoscopique de 2 caméras On ne connaît pas non plus la contrainte géométrique épipolaire Une technique de corrélation est utilisée pour trouver des candidats à l'appariement pour chaque point - On est obligé de rechercher des appariements dans une grande région La corrélation est mauvaise sur la mire en raison de sa forme répétitive Une technique de relaxation qui utilise le contexte du voisinage est ensuite appliquée pour lever les ambiguïtés d'appariement - les appariements se sont considérablement améliorés A partir des correspondances établies on calcule la géométrie épipolaire On trouve souvent de faux appariements principalement dus au fait que l'on a utilisé des contraintes heuristiques dans la corrélation et la relaxation La distance moyenne entre les points et leur droit épipolaire est de 17 virgule 4 pixels ce qui est énorme avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les foies à pareillement consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètres irisations celle qui minimise le medium déclaré de l'erreur quantifier par la distance entre un point et sa droite et bipolaire correspondant l'élimination de faux à pareillement à distance moyenne entre les points et leur droit est bipolaire et maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant remarque comment les faux à pareillement ont perturbé complètement la géométrie bipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière incrémentale à partir des 4 vues stéréoscopiques Les images sont prises par la 1ère caméra et le m n T reconstruit est celui de la première position - Les trous sont dus aux occlusion - Le 2ème m n T est obtenu en fusionnant les 2 nuages de points 3D - Les trous se remplissent davantage ( ) Le 3ème m n T est le résultat de la fusion des trois nuages de points 3D finale et complet Sur l'ensemble des quatre m n T on voit clairement comment la fusion améliore notre connaissance de la scène Dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèques associés à chacune des caméras - Les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stéréoscopique de 2 caméras On ne connaît pas non plus la contrainte géométrique épipolaire Une technique de corrélation est utilisée pour trouver des candidats à l'appariement pour chaque point - On est obligé de rechercher des appariements dans une grande région La corrélation est mauvaise sur la mire en raison de sa forme répétitive Une technique de relaxation qui utilise le contexte du voisinage est ensuite appliquée pour lever les ambiguïtés d'appariement - les appariements se sont considérablement améliorés A partir des correspondances établies on calcule la géométrie épipolaire On trouve souvent de faux appariements principalement dus au fait que l'on a utilisé des contraintes heuristiques dans la corrélation et la relaxation La distance moyenne entre les points et leur droit épipolaire est de 17 virgule 4 pixels ce qui est énorme Nous avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les faux appariements Cela consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètrisations celle qui minimise le median des carrés de l'erreur quantifiée par la distance entre un point et sa droite épipolaire correspondante Après l'élimination de faux appariements la distance moyenne entre les points et leur droite épipolaire est maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant - On remarque comment les faux appariements ont perturbé complètement la géométrie épipolaire fois que la géométrie est puis polaire est estimé on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appareils man deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière incrémentale à partir des 4 vues stéréoscopiques Les images sont prises par la 1ère caméra et le m n T reconstruit est celui de la première position - Les trous sont dus aux occlusion - Le 2ème m n T est obtenu en fusionnant les 2 nuages de points 3D - Les trous se remplissent davantage ( ) Le 3ème m n T est le résultat de la fusion des trois nuages de points 3D finale et complet Sur l'ensemble des quatre m n T on voit clairement comment la fusion améliore notre connaissance de la scène Dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèques associés à chacune des caméras - Les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stéréoscopique de 2 caméras On ne connaît pas non plus la contrainte géométrique épipolaire Une technique de corrélation est utilisée pour trouver des candidats à l'appariement pour chaque point - On est obligé de rechercher des appariements dans une grande région La corrélation est mauvaise sur la mire en raison de sa forme répétitive Une technique de relaxation qui utilise le contexte du voisinage est ensuite appliquée pour lever les ambiguïtés d'appariement - les appariements se sont considérablement améliorés A partir des correspondances établies on calcule la géométrie épipolaire On trouve souvent de faux appariements principalement dus au fait que l'on a utilisé des contraintes heuristiques dans la corrélation et la relaxation La distance moyenne entre les points et leur droit épipolaire est de 17 virgule 4 pixels ce qui est énorme Nous avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les faux appariements Cela consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètrisations celle qui minimise le median des carrés de l'erreur quantifiée par la distance entre un point et sa droite épipolaire correspondante Après l'élimination de faux appariements la distance moyenne entre les points et leur droite épipolaire est maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant - On remarque comment les faux appariements ont perturbé complètement la géométrie épipolaire Une fois que la géométrie épipolaire est estimée on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appariements deux images ont été prises par une caméra montée dans un véhicule roulant sur une route les people et l'intersection vecteur de translation avec le plan image on s'attend donc à ce que les droites bipolaire se coupe en un point près du centre de l'image point n'ont pas été correctement à parier la géométrie bipolaire estimé n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière incrémentale à partir des 4 vues stéréoscopiques Les images sont prises par la 1ère caméra et le m n T reconstruit est celui de la première position - Les trous sont dus aux occlusion - Le 2ème m n T est obtenu en fusionnant les 2 nuages de points 3D - Les trous se remplissent davantage ( ) Le 3ème m n T est le résultat de la fusion des trois nuages de points 3D finale et complet Sur l'ensemble des quatre m n T on voit clairement comment la fusion améliore notre connaissance de la scène Dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèques associés à chacune des caméras - Les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stéréoscopique de 2 caméras On ne connaît pas non plus la contrainte géométrique épipolaire Une technique de corrélation est utilisée pour trouver des candidats à l'appariement pour chaque point - On est obligé de rechercher des appariements dans une grande région La corrélation est mauvaise sur la mire en raison de sa forme répétitive Une technique de relaxation qui utilise le contexte du voisinage est ensuite appliquée pour lever les ambiguïtés d'appariement - les appariements se sont considérablement améliorés A partir des correspondances établies on calcule la géométrie épipolaire On trouve souvent de faux appariements principalement dus au fait que l'on a utilisé des contraintes heuristiques dans la corrélation et la relaxation La distance moyenne entre les points et leur droit épipolaire est de 17 virgule 4 pixels ce qui est énorme Nous avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les faux appariements Cela consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètrisations celle qui minimise le median des carrés de l'erreur quantifiée par la distance entre un point et sa droite épipolaire correspondante Après l'élimination de faux appariements la distance moyenne entre les points et leur droite épipolaire est maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant - On remarque comment les faux appariements ont perturbé complètement la géométrie épipolaire Une fois que la géométrie épipolaire est estimée on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appariements Les 2 images ont été prises par une caméra montée dans un véhicule roulant sur une route L'épipôle est l'intersection du vecteur de translation avec le plan image On s'attend donc à ce que les droites épipolaires se coupent en un point près du centre de l'image Quelques points n'ont pas été correctement appariés La géométrie épipolaire estimée n'est pas celle que l'on attendait appliquant la technique robuste les faux à pareillement ont été éliminés la géométrie et puis colère ehret estimé droit et bipolaire s'interceptent effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière incrémentale à partir des 4 vues stéréoscopiques Les images sont prises par la 1ère caméra et le m n T reconstruit est celui de la première position - Les trous sont dus aux occlusion - Le 2ème m n T est obtenu en fusionnant les 2 nuages de points 3D - Les trous se remplissent davantage ( ) Le 3ème m n T est le résultat de la fusion des trois nuages de points 3D finale et complet Sur l'ensemble des quatre m n T on voit clairement comment la fusion améliore notre connaissance de la scène Dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèques associés à chacune des caméras - Les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stéréoscopique de 2 caméras On ne connaît pas non plus la contrainte géométrique épipolaire Une technique de corrélation est utilisée pour trouver des candidats à l'appariement pour chaque point - On est obligé de rechercher des appariements dans une grande région La corrélation est mauvaise sur la mire en raison de sa forme répétitive Une technique de relaxation qui utilise le contexte du voisinage est ensuite appliquée pour lever les ambiguïtés d'appariement - les appariements se sont considérablement améliorés A partir des correspondances établies on calcule la géométrie épipolaire On trouve souvent de faux appariements principalement dus au fait que l'on a utilisé des contraintes heuristiques dans la corrélation et la relaxation La distance moyenne entre les points et leur droit épipolaire est de 17 virgule 4 pixels ce qui est énorme Nous avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les faux appariements Cela consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètrisations celle qui minimise le median des carrés de l'erreur quantifiée par la distance entre un point et sa droite épipolaire correspondante Après l'élimination de faux appariements la distance moyenne entre les points et leur droite épipolaire est maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant - On remarque comment les faux appariements ont perturbé complètement la géométrie épipolaire Une fois que la géométrie épipolaire est estimée on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appariements Les 2 images ont été prises par une caméra montée dans un véhicule roulant sur une route L'épipôle est l'intersection du vecteur de translation avec le plan image On s'attend donc à ce que les droites épipolaires se coupent en un point près du centre de l'image Quelques points n'ont pas été correctement appariés La géométrie épipolaire estimée n'est pas celle que l'on attendait En appliquant la technique robuste les faux appariements ont été éliminés et la géométrie épipolaire est réestimée Les droites épipolaires s'intersectent (se coupent NDLR) effectivement au centre de l'image les paramètres intrinsèque de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie bipolaire donc on est capable de reconstruire la scène trois des fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière incrémentale à partir des 4 vues stéréoscopiques Les images sont prises par la 1ère caméra et le m n T reconstruit est celui de la première position - Les trous sont dus aux occlusion - Le 2ème m n T est obtenu en fusionnant les 2 nuages de points 3D - Les trous se remplissent davantage ( ) Le 3ème m n T est le résultat de la fusion des trois nuages de points 3D finale et complet Sur l'ensemble des quatre m n T on voit clairement comment la fusion améliore notre connaissance de la scène Dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèques associés à chacune des caméras - Les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stéréoscopique de 2 caméras On ne connaît pas non plus la contrainte géométrique épipolaire Une technique de corrélation est utilisée pour trouver des candidats à l'appariement pour chaque point - On est obligé de rechercher des appariements dans une grande région La corrélation est mauvaise sur la mire en raison de sa forme répétitive Une technique de relaxation qui utilise le contexte du voisinage est ensuite appliquée pour lever les ambiguïtés d'appariement - les appariements se sont considérablement améliorés A partir des correspondances établies on calcule la géométrie épipolaire On trouve souvent de faux appariements principalement dus au fait que l'on a utilisé des contraintes heuristiques dans la corrélation et la relaxation La distance moyenne entre les points et leur droit épipolaire est de 17 virgule 4 pixels ce qui est énorme Nous avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les faux appariements Cela consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètrisations celle qui minimise le median des carrés de l'erreur quantifiée par la distance entre un point et sa droite épipolaire correspondante Après l'élimination de faux appariements la distance moyenne entre les points et leur droite épipolaire est maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant - On remarque comment les faux appariements ont perturbé complètement la géométrie épipolaire Une fois que la géométrie épipolaire est estimée on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appariements Les 2 images ont été prises par une caméra montée dans un véhicule roulant sur une route L'épipôle est l'intersection du vecteur de translation avec le plan image On s'attend donc à ce que les droites épipolaires se coupent en un point près du centre de l'image Quelques points n'ont pas été correctement appariés La géométrie épipolaire estimée n'est pas celle que l'on attendait En appliquant la technique robuste les faux appariements ont été éliminés et la géométrie épipolaire est réestimée Les droites épipolaires s'intersectent (se coupent NDLR) effectivement au centre de l'image Si les paramètres intrinsèques de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie épipolaire donc on est capable de reconstruire la scène 3D fois que le mouvement entre les deux images a été estimé on calcule la structure trois des voici les points trois des reconstruits indiqués par des points bleus vu par la caméra et leurs projections le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière incrémentale à partir des 4 vues stéréoscopiques Les images sont prises par la 1ère caméra et le m n T reconstruit est celui de la première position - Les trous sont dus aux occlusion - Le 2ème m n T est obtenu en fusionnant les 2 nuages de points 3D - Les trous se remplissent davantage ( ) Le 3ème m n T est le résultat de la fusion des trois nuages de points 3D finale et complet Sur l'ensemble des quatre m n T on voit clairement comment la fusion améliore notre connaissance de la scène Dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèques associés à chacune des caméras - Les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stéréoscopique de 2 caméras On ne connaît pas non plus la contrainte géométrique épipolaire Une technique de corrélation est utilisée pour trouver des candidats à l'appariement pour chaque point - On est obligé de rechercher des appariements dans une grande région La corrélation est mauvaise sur la mire en raison de sa forme répétitive Une technique de relaxation qui utilise le contexte du voisinage est ensuite appliquée pour lever les ambiguïtés d'appariement - les appariements se sont considérablement améliorés A partir des correspondances établies on calcule la géométrie épipolaire On trouve souvent de faux appariements principalement dus au fait que l'on a utilisé des contraintes heuristiques dans la corrélation et la relaxation La distance moyenne entre les points et leur droit épipolaire est de 17 virgule 4 pixels ce qui est énorme Nous avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les faux appariements Cela consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètrisations celle qui minimise le median des carrés de l'erreur quantifiée par la distance entre un point et sa droite épipolaire correspondante Après l'élimination de faux appariements la distance moyenne entre les points et leur droite épipolaire est maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant - On remarque comment les faux appariements ont perturbé complètement la géométrie épipolaire Une fois que la géométrie épipolaire est estimée on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appariements Les 2 images ont été prises par une caméra montée dans un véhicule roulant sur une route L'épipôle est l'intersection du vecteur de translation avec le plan image On s'attend donc à ce que les droites épipolaires se coupent en un point près du centre de l'image Quelques points n'ont pas été correctement appariés La géométrie épipolaire estimée n'est pas celle que l'on attendait En appliquant la technique robuste les faux appariements ont été éliminés et la géométrie épipolaire est réestimée Les droites épipolaires s'intersectent (se coupent NDLR) effectivement au centre de l'image Si les paramètres intrinsèques de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie épipolaire donc on est capable de reconstruire la scène 3D Une fois que le mouvement entre les 2 images a été estimé on calcule la structure 3D Voici les points 3D reconstruits indiqués par des points bleus vu par la caméra et leurs projections sur le plan du sol segment observé dans une image correspond à un triangle défini par le centre optique c'est le segment l'instant et d'eux on observe un autre segment exprime et son triangle associé en général les deux triangles ne s'interceptent pas dans l'espace mais sprint sont en correspondance les triangles devraient s'intercepter l'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que deux triangles s'interceptent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière incrémentale à partir des 4 vues stéréoscopiques Les images sont prises par la 1ère caméra et le m n T reconstruit est celui de la première position - Les trous sont dus aux occlusion - Le 2ème m n T est obtenu en fusionnant les 2 nuages de points 3D - Les trous se remplissent davantage ( ) Le 3ème m n T est le résultat de la fusion des trois nuages de points 3D finale et complet Sur l'ensemble des quatre m n T on voit clairement comment la fusion améliore notre connaissance de la scène Dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèques associés à chacune des caméras - Les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stéréoscopique de 2 caméras On ne connaît pas non plus la contrainte géométrique épipolaire Une technique de corrélation est utilisée pour trouver des candidats à l'appariement pour chaque point - On est obligé de rechercher des appariements dans une grande région La corrélation est mauvaise sur la mire en raison de sa forme répétitive Une technique de relaxation qui utilise le contexte du voisinage est ensuite appliquée pour lever les ambiguïtés d'appariement - les appariements se sont considérablement améliorés A partir des correspondances établies on calcule la géométrie épipolaire On trouve souvent de faux appariements principalement dus au fait que l'on a utilisé des contraintes heuristiques dans la corrélation et la relaxation La distance moyenne entre les points et leur droit épipolaire est de 17 virgule 4 pixels ce qui est énorme Nous avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les faux appariements Cela consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètrisations celle qui minimise le median des carrés de l'erreur quantifiée par la distance entre un point et sa droite épipolaire correspondante Après l'élimination de faux appariements la distance moyenne entre les points et leur droite épipolaire est maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant - On remarque comment les faux appariements ont perturbé complètement la géométrie épipolaire Une fois que la géométrie épipolaire est estimée on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appariements Les 2 images ont été prises par une caméra montée dans un véhicule roulant sur une route L'épipôle est l'intersection du vecteur de translation avec le plan image On s'attend donc à ce que les droites épipolaires se coupent en un point près du centre de l'image Quelques points n'ont pas été correctement appariés La géométrie épipolaire estimée n'est pas celle que l'on attendait En appliquant la technique robuste les faux appariements ont été éliminés et la géométrie épipolaire est réestimée Les droites épipolaires s'intersectent (se coupent NDLR) effectivement au centre de l'image Si les paramètres intrinsèques de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie épipolaire donc on est capable de reconstruire la scène 3D Une fois que le mouvement entre les 2 images a été estimé on calcule la structure 3D Voici les points 3D reconstruits indiqués par des points bleus vu par la caméra et leurs projections sur le plan du sol Chaque segment observé dans une image correspond à un triangle défini par le centre optique C et le segment A l'instant t2 on observe un autre segment s'et son triangle associé En général les deux triangles ne s'intersectent pas dans l'espace mais s et s'sont en correspondance les triangles devraient s'intersecter L'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que les 2 triangles s'intersectent dans l'espace vers les segments de la première image transformée dans la deuxième image par le mouvement initial en bleu les segments de la deuxième image leur superposition est très mauvaise après chaque opération l'estimation du mouvement évolue superposition devient meilleur et après une vingtaine d'elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière incrémentale à partir des 4 vues stéréoscopiques Les images sont prises par la 1ère caméra et le m n T reconstruit est celui de la première position - Les trous sont dus aux occlusion - Le 2ème m n T est obtenu en fusionnant les 2 nuages de points 3D - Les trous se remplissent davantage ( ) Le 3ème m n T est le résultat de la fusion des trois nuages de points 3D finale et complet Sur l'ensemble des quatre m n T on voit clairement comment la fusion améliore notre connaissance de la scène Dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèques associés à chacune des caméras - Les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stéréoscopique de 2 caméras On ne connaît pas non plus la contrainte géométrique épipolaire Une technique de corrélation est utilisée pour trouver des candidats à l'appariement pour chaque point - On est obligé de rechercher des appariements dans une grande région La corrélation est mauvaise sur la mire en raison de sa forme répétitive Une technique de relaxation qui utilise le contexte du voisinage est ensuite appliquée pour lever les ambiguïtés d'appariement - les appariements se sont considérablement améliorés A partir des correspondances établies on calcule la géométrie épipolaire On trouve souvent de faux appariements principalement dus au fait que l'on a utilisé des contraintes heuristiques dans la corrélation et la relaxation La distance moyenne entre les points et leur droit épipolaire est de 17 virgule 4 pixels ce qui est énorme Nous avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les faux appariements Cela consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètrisations celle qui minimise le median des carrés de l'erreur quantifiée par la distance entre un point et sa droite épipolaire correspondante Après l'élimination de faux appariements la distance moyenne entre les points et leur droite épipolaire est maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant - On remarque comment les faux appariements ont perturbé complètement la géométrie épipolaire Une fois que la géométrie épipolaire est estimée on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appariements Les 2 images ont été prises par une caméra montée dans un véhicule roulant sur une route L'épipôle est l'intersection du vecteur de translation avec le plan image On s'attend donc à ce que les droites épipolaires se coupent en un point près du centre de l'image Quelques points n'ont pas été correctement appariés La géométrie épipolaire estimée n'est pas celle que l'on attendait En appliquant la technique robuste les faux appariements ont été éliminés et la géométrie épipolaire est réestimée Les droites épipolaires s'intersectent (se coupent NDLR) effectivement au centre de l'image Si les paramètres intrinsèques de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie épipolaire donc on est capable de reconstruire la scène 3D Une fois que le mouvement entre les 2 images a été estimé on calcule la structure 3D Voici les points 3D reconstruits indiqués par des points bleus vu par la caméra et leurs projections sur le plan du sol Chaque segment observé dans une image correspond à un triangle défini par le centre optique C et le segment A l'instant t2 on observe un autre segment s'et son triangle associé En général les deux triangles ne s'intersectent pas dans l'espace mais s et s'sont en correspondance les triangles devraient s'intersecter L'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que les 2 triangles s'intersectent dans l'espace En vert les segments de la 1ère image transformée dans la 2ème image par le mouvement initial - en bleu les segments de la 2ème image Leur superposition est très mauvaise Après chaque itération l'estimation du mouvement évolue - La superposition devient meilleure et après une vingtaine d'itérations elle est presque parfaite la projection de reconstruction trois des sur la première caméra quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la deuxième caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière incrémentale à partir des 4 vues stéréoscopiques Les images sont prises par la 1ère caméra et le m n T reconstruit est celui de la première position - Les trous sont dus aux occlusion - Le 2ème m n T est obtenu en fusionnant les 2 nuages de points 3D - Les trous se remplissent davantage ( ) Le 3ème m n T est le résultat de la fusion des trois nuages de points 3D finale et complet Sur l'ensemble des quatre m n T on voit clairement comment la fusion améliore notre connaissance de la scène Dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèques associés à chacune des caméras - Les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stéréoscopique de 2 caméras On ne connaît pas non plus la contrainte géométrique épipolaire Une technique de corrélation est utilisée pour trouver des candidats à l'appariement pour chaque point - On est obligé de rechercher des appariements dans une grande région La corrélation est mauvaise sur la mire en raison de sa forme répétitive Une technique de relaxation qui utilise le contexte du voisinage est ensuite appliquée pour lever les ambiguïtés d'appariement - les appariements se sont considérablement améliorés A partir des correspondances établies on calcule la géométrie épipolaire On trouve souvent de faux appariements principalement dus au fait que l'on a utilisé des contraintes heuristiques dans la corrélation et la relaxation La distance moyenne entre les points et leur droit épipolaire est de 17 virgule 4 pixels ce qui est énorme Nous avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les faux appariements Cela consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètrisations celle qui minimise le median des carrés de l'erreur quantifiée par la distance entre un point et sa droite épipolaire correspondante Après l'élimination de faux appariements la distance moyenne entre les points et leur droite épipolaire est maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant - On remarque comment les faux appariements ont perturbé complètement la géométrie épipolaire Une fois que la géométrie épipolaire est estimée on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appariements Les 2 images ont été prises par une caméra montée dans un véhicule roulant sur une route L'épipôle est l'intersection du vecteur de translation avec le plan image On s'attend donc à ce que les droites épipolaires se coupent en un point près du centre de l'image Quelques points n'ont pas été correctement appariés La géométrie épipolaire estimée n'est pas celle que l'on attendait En appliquant la technique robuste les faux appariements ont été éliminés et la géométrie épipolaire est réestimée Les droites épipolaires s'intersectent (se coupent NDLR) effectivement au centre de l'image Si les paramètres intrinsèques de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie épipolaire donc on est capable de reconstruire la scène 3D Une fois que le mouvement entre les 2 images a été estimé on calcule la structure 3D Voici les points 3D reconstruits indiqués par des points bleus vu par la caméra et leurs projections sur le plan du sol Chaque segment observé dans une image correspond à un triangle défini par le centre optique C et le segment A l'instant t2 on observe un autre segment s'et son triangle associé En général les deux triangles ne s'intersectent pas dans l'espace mais s et s'sont en correspondance les triangles devraient s'intersecter L'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que les 2 triangles s'intersectent dans l'espace En vert les segments de la 1ère image transformée dans la 2ème image par le mouvement initial - en bleu les segments de la 2ème image Leur superposition est très mauvaise Après chaque itération l'estimation du mouvement évolue - La superposition devient meilleure et après une vingtaine d'itérations elle est presque parfaite Voici la reprojection de la reconstruction 3D sur la première caméra - Quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la 2ème caméra deux images sont extraites d'un triple a d'images stéréo deux résultats sont comparables le nôtre est un peu plus beau été ce qui est normal parce que nous n'avons utilisé que deux images il y a donc moins de contraintes
La stéréoscopie et le mouvement sont deux moyens importants en vision pour percevoir le monde tridimensionnel et dynamique qui nous entoure Nous présentons quelques résultats de recherche réalisés ces dernières années sur l'analyse de séquences d'images stéréoscopiques ou monoculaires Les segments de droite sont des primitives importantes en vision par ordinateur Mais les représentations classiques ne caractérisent pas parfaitement les incertitudes Nous proposons ici une nouvelle représentation appropriée à la vision 3D Les ellipoïdes illustrent les incertitudes sur les extrémités calculées par la stéréo A partir de celle-ci on peut calculer l'incertitude sur le point milieu en en vert Mais les extrémités ou le point milieu ne sont pas stables pour diverses raisons Le point milieu d'un segment dans d'autres vues peut être n'importe quel point sur le segment Nous le définissons donc comme un point aléatoire qui peut bouger le long du segment Notre modélisation nous permet d'identifier des segments dans des vues différentes même si leurs longueurs sont très différentes Le système stéréoscopique est supposé capable de délivrer une séquence dont les images se succèdent à intervalles de temps très courts Le problème de mise en correspondance est alors relativement simple La continuité du mouvement peut être utilisée pour prédire l'occurrence de primitives dans le futur et la recherche de correspondances est effectuée dans un volume prédit Le premier groupe d'objets au-dessus de la table tournante est soumis à une rotation et une translation Le deuxième au-dessous est soumis seulement à une translation Le troisième est statique Les ellipses représentent l'incertitude des points milieux des segments reconstruits Les segments ne changent pas parce que l'on n'a pas la connaissance du mouvement On suppose donc que le mouvement est nul Mais les ellipses sont grandes ce qui indique la méconnaissance du mouvement On effectue la mise en correspondance de segments et la mise à jour du mouvement en exploitant une stratégie de recherche par faisceaux La taille des ellipses a diminué - on a acquis la connaissance du mouvement
- notre stratégie de mise en correspondance donne plus de segments prédits Pour la plupart des segments la prédiction et l'observation se superposent bien avec seulement 2 vues Certains segments - dus aux faux appariements - disparaissent au fur et à mesure Grâce aux mouvements estimés pour chaque segment on arrive maintenant à identifier trois groupes d'objets Lun est en rotation et translation - un autre en pure translation - et le troisième est statique Connaissant la forme du mouvement pour les objets sur la table nous pouvons calculer le véritable axe de rotation Il est vertical à l'intersection des deux droites bleues il passe par le milieu de la table ici vu de dessus Soient deux vues stéréoscopiques pouvant être très différentes l'une de l'autre - Notre problème est de mettre en correspondance les primitives reconstruites et d'estimer le déplacement entre les deux vues Les deux triplets d'images sont très différents il y a à peu près deux cents pixels de disparité sur le plan image Nous avons développé une technique de génération et vérification d'hypothèse Si deux paires de segments de deux vues différentes satisfont les contraintes de rigidité ils forment une hypothèse de correspondance Pour chaque hypothèse nous calculons une estimation initiale du mouvement qui est ensuite propagée dans toute la scène pour donner plus d'appariement et effectuer une mise à jour du mouvement Finalement on choisit l'hypothèse qui donne le plus d'appariement - elle désigne le mouvement existant entre les deux vues Voici la superposition de deux ensembles de segments avant le recalage On remarque une grande différence entre les deux Après avoir appliqué le mouvement estimé aux segments de la première vue on peut les comparer avec ceux de la deuxième La bonne superposition des segments prouve que le mouvement a été bien estimé On peut faire la même chose en projetant les segments sur le sol Voici la superposition avant le recalage - et maintenant après le recalage Quand un robot mobile acquiert une séquence en explorant un environnement inconnu il fournit beaucoup d'informations redondantes En outre une vue stéréoscopique ne fournit qu'une information partielle et peu précise sur l'environnement Notre étude a pour objectif de construire une description consistante et précise de l'environnement en combinant des informations prises par le système de stéréovision depuis différents points de vue Avec notre technique nous mettons les segments en correspondance et calculons le mouvement entre ces deux vues Voici la superposition de deux ensembles de segments observée par la caméra avant et après recalage Les segments sont mis en correspondance et l'on calcule le mouvement entre T2 et T3 Nous continuons le procédé de manière incrémentale pour une séquence de 35 vues stéréo On distingue effectivement une porte ouverte à droite un bureau au milieu des posters et des calendriers sur les murs Le système de navigation présenté permet à un robot mobile d'explorer de manière autonome un environnement inconnu en se servant uniquement de la perception visuelle nous employons la stratégie regarder et explorer A l'instant T1 le système de vision stéréoscopique prend une vue panoramique Une seule vue ne suffirait pas à planifier la trajectoire L'environnement perçu est reconstruit en trois dimensions Notre estimateur du mouvement 3D calcule le déplacement du robot entre les instants successifs ce qui permet d'exprimer tous les segments observés jusqu'alors dans un même repère - Les segments 3D sont alors projetés sur le sol afin d'augmenter l'efficacité du système de navigation - La fusion des segment observés permet de maintenir une carte 2D du sol Chaque segment de la carte du sol est une arête de Delaunay - L'algorithme est dynamique il insère ou supprime un segment de la triangulation dans un souci d'efficacité Les espaces libres sont identifiés par les triangles qui ne contiennent pas d'obstacle à l'aide d'un simple critère de visibilité La triangulation est utilisée comme un graphe pour générer une trajectoire sans collision Le robot se déplace il acquiert de nouvelles données et la carte du sol est mise à jour grâce à la propriété dynamique de la triangulation de Delaunay Dans cette approche les segments sont suivis dans le temps et mis en correspondance stéréoscopique Le mouvement du système stéréo est calculé en évitant la reconstruction de la scène 3D à chaque instant On effectue la mise en correspondance en projetant les segments 3D prédits sur les images Ill y a trois groupes d'objets en mouvement le chariot à gauche s'approche des caméras la poubelle à droite bouge vers la gauche des objets statiques comme la table correspondent au mouvement du robot Les segments appariés stéréo et temporel sont identifiés en rouge On estime les paramètres du mouvement indépendamment pour chaque segment en même temps on calcule leur matrice de covariance On construit ensuite une structure d'arbre minimal Les noeuds sont les vecteurs de mouvement la distance de maalanovice est utilisée pour définir la similarité entre les noeuds En coupant les branches ayant de très grandes distances on obtient plusieurs groupes de mouvements Dans chaque groupe on fusionne les segments Finalement en obtient trois groupes d'objets en mouvement L'approche classique extrait d'abord les points de forte courbure mais pour des courbes lisses cette méthode est très sensible au bruit L'approche que nous nous décrivons ici suppose qu'une estimation grossière du mouvement est disponible Dans ces images les chaînes de contour sont détectées Nous avons utilisé un système de stéréovision à base de spleen Dans cette animation la disparité est à peu près de 50 pixels En vert la première reconstruction - en rouge la deuxième -Le mouvement entre 2 positions étant petit on considère que le point apparié est son voisin le plus proche dans l'autre vue - On relie les 2 points par un segment jaune En analysant les distributions de distance nous éliminons des appariements aberrants - Il reste quelques faux appariements mais la plupart sont cohérents Voici les appariements qu'il reste après l'analyse statistique de distance - Les appariements sont + nombreux - Il y a moins de faux appariements - Les 2 vues sont plus cohérentes avec le mouvement estimé après la 1ère itération qu'avec le mouvement initial - Après 12 itérations il y a convergence - La superposition par le mouvement estimé est presque parfaite Cette étude a été menée dans le contexte de la navigation d'un véhicule autonome planétaire Dans un tel environnement non structuré on ne peut plus utiliser des segments de droites ou même des courbes comme primitives - Nous utilisons donc la stéréovision par corrélation qui reconstruit une carte dense de l'environnement représenté par un nuage de points 3D - On utilise la corrélation le long des lignes épipolaires horizontale et verticale pour trouver la correspondance - Voici le résultat de la stéréo par corrélation Plus une région est foncée plus elle est proche des caméras Les zones noires indiquent que la stéréo a échoué pendant la corrélation La région est peut-être trop uniforme ou bien elle a des formes répétitives qui sont source d'ambiguïté de l'appariement ou bien encore il y a une occlusion La stéréovision par corrélation reconstruit un nouveau nuage de points 3D Le 1er nuage est représenté par des quadrilatères rouges et le 2ème par des surfaces grisées La différence entre eux est relativement grande Il faut trouver le déplacement entre les deux positions et mettre les points en correspondance - Notre méthode est basée sur une mise en correspondance itérative des points d'un nuage avec leurs plus proches voisins dans l'autre image Certaines parties ne sont visibles que dans 1 des 2 positions Les 2 nuages contiennent donc des informations complémentaires Connaissant le déplacement entre 2 positions il est intéressant et même nécessaire de fusionner les données A centre de la scène il y a un tas de cailloux Le robot mobile effectue 3 déplacements successifs le but est de construire un modèle numérique de terrain de manière incrémentale à partir des 4 vues stéréoscopiques Les images sont prises par la 1ère caméra et le m n T reconstruit est celui de la première position - Les trous sont dus aux occlusion - Le 2ème m n T est obtenu en fusionnant les 2 nuages de points 3D - Les trous se remplissent davantage ( ) Le 3ème m n T est le résultat de la fusion des trois nuages de points 3D finale et complet Sur l'ensemble des quatre m n T on voit clairement comment la fusion améliore notre connaissance de la scène Dans cet exemple on ne dispose ni du mouvement entre les caméras ni des paramètres intrinsèques associés à chacune des caméras - Les images peuvent être considérées comme prises par une même caméra à différents instants ou par un système stéréoscopique de 2 caméras On ne connaît pas non plus la contrainte géométrique épipolaire Une technique de corrélation est utilisée pour trouver des candidats à l'appariement pour chaque point - On est obligé de rechercher des appariements dans une grande région La corrélation est mauvaise sur la mire en raison de sa forme répétitive Une technique de relaxation qui utilise le contexte du voisinage est ensuite appliquée pour lever les ambiguïtés d'appariement - les appariements se sont considérablement améliorés A partir des correspondances établies on calcule la géométrie épipolaire On trouve souvent de faux appariements principalement dus au fait que l'on a utilisé des contraintes heuristiques dans la corrélation et la relaxation La distance moyenne entre les points et leur droit épipolaire est de 17 virgule 4 pixels ce qui est énorme Nous avons développé une méthode robuste basée sur la technique du moindre médian des carrés de l'erreur pour éliminer les faux appariements Cela consiste à estimer la matrice fondamentale en cherchant dans l'espace de paramètrisations celle qui minimise le median des carrés de l'erreur quantifiée par la distance entre un point et sa droite épipolaire correspondante Après l'élimination de faux appariements la distance moyenne entre les points et leur droite épipolaire est maintenant de seulement zéro six pixels au lieu de dix sept virgule quatre pixels avant - On remarque comment les faux appariements ont perturbé complètement la géométrie épipolaire Une fois que la géométrie épipolaire est estimée on peut appliquer des algorithmes stéréo classiques pour trouver plus d'appariements Les 2 images ont été prises par une caméra montée dans un véhicule roulant sur une route L'épipôle est l'intersection du vecteur de translation avec le plan image On s'attend donc à ce que les droites épipolaires se coupent en un point près du centre de l'image Quelques points n'ont pas été correctement appariés La géométrie épipolaire estimée n'est pas celle que l'on attendait En appliquant la technique robuste les faux appariements ont été éliminés et la géométrie épipolaire est réestimée Les droites épipolaires s'intersectent (se coupent NDLR) effectivement au centre de l'image Si les paramètres intrinsèques de chaque image sont connus on peut estimer le mouvement entre les deux images au lieu de la géométrie épipolaire donc on est capable de reconstruire la scène 3D Une fois que le mouvement entre les 2 images a été estimé on calcule la structure 3D Voici les points 3D reconstruits indiqués par des points bleus vu par la caméra et leurs projections sur le plan du sol Chaque segment observé dans une image correspond à un triangle défini par le centre optique C et le segment A l'instant t2 on observe un autre segment s'et son triangle associé En général les deux triangles ne s'intersectent pas dans l'espace mais s et s'sont en correspondance les triangles devraient s'intersecter L'idée de notre méthode est de trouver le positionnement de la deuxième caméra telle que les 2 triangles s'intersectent dans l'espace En vert les segments de la 1ère image transformée dans la 2ème image par le mouvement initial - en bleu les segments de la 2ème image Leur superposition est très mauvaise Après chaque itération l'estimation du mouvement évolue - La superposition devient meilleure et après une vingtaine d'itérations elle est presque parfaite Voici la reprojection de la reconstruction 3D sur la première caméra - Quelques segment sont plus longs que ceux observés parce qu'une partie est visible seulement par la 2ème caméra Ces 2 images sont extraites d'un triplet d'images stéréo Les deux résultats sont comparables - Le nôtre est un peu plus bruité ce qui est normal parce que nous n'avons utilisé que 2 images il y a donc moins de contraintes
Inria-283-Perceptio_tri-fr.mp4

Format : .mp4
903,6 Mo
768 x 576 pixels
Fichier H264. Meilleure résolution disponible
Sélection
Voir Selection
Déposer ici pour retirer de la sélection