La perception visuelle permet aux machines de posséder la capacité de percevoir et de tirer des informations significatives à partir d’images, de vidéos et d’autres entrées optiques. Ceci est bien illustré à la figure 1. L’information est utile pour que les robots et les systèmes autonomes puissent manipuler et naviguer dans leur environnement et dans d’autres emplacements relatifs. Elle décrit la forme et la taille des objets ainsi que leurs emplacements relatifs pour la manipulation. Elle peut également fournir des connaissances sur la nature des obstacles et les caractéristiques du terrain pour les systèmes de navigation.
Principalement, la caméra est la source des images pour la perception visuelle. Les images acquises à partir de la caméra doivent être prétraitées pour garantir la qualité, c’est-à-dire sans bruit ni distorsions. Après le prétraitement, l’objet présent dans les images peut être identifié à l’aide de techniques de vision par ordinateur basées sur l’apprentissage automatique. Cependant, les objets sont décrits par rapport à l’image en termes de pixels. Il est donc nécessaire de disposer de techniques qui transforment les coordonnées de l’image/des pixels dans l’espace 3D afin que la connaissance de l’objet puisse être perçue pour une utilisation ultérieure.

Figure 1. Comparaison entre la vision par ordinateur et la perception visuelle
Voici les problèmes à résoudre pour permettre la perception visuelle par caméra :
- Calibration manuelle – Des interventions manuelles sont nécessaires pour obtenir un facteur d’échelle/de conversion qui peut convertir les informations des pixels en coordonnées dans l’espace 3D. Cela dépend de plusieurs facteurs, tels que le type de caméra, la focale, l’emplacement de la caméra, etc.
- Distorsion de la caméra – Les contraintes de conception de la caméra, comme la longueur focale et le type d’objectif utilisé, peuvent altérer la qualité des images. L’effet de barillet et l’effet de coussinet (voir Figure 2) sont quelques-unes des distorsions de la caméra fréquemment rencontrées qui peuvent nuire à la perception visuelle. Cela rend l’échelle non uniforme pour la conversion des pixels en coordonnées dans l’espace 3D.

Figure 2. Effet de distorsion d’objectif de caméra
- Mauvais alignement de la caméra – L’échelle de la transformation est établie en supposant que la position de la caméra est bien définie. L’échelle devient erronée lorsque la caméra présente des désalignements.
- Caméra embarquée/sur robot – La caméra montée sur le bras du robot est souvent appelée caméra embarquée, ce qui connaît de plus en plus d’applications potentielles ces derniers temps. Elle rend la position de la caméra dynamique et nécessite des facteurs d’échelle dynamiques.
La technique de calibration automatique de la caméra s'impose comme une solution pour résoudre ces problèmes et permettre la perception visuelle de la caméra. Elle consiste principalement à inverser la conversion qui se produit à l’intérieur de la caméra pour transformer les objets du monde réel en pixels. Ainsi, il s’agit de créer un modèle inverse d’une caméra pour convertir les pixels en objets réels, comme à la figure 3. Elle implique la détection des paramètres intrinsèques et extrinsèques de la caméra comme décrit ci-dessous,

Figure 3. Calibration de la caméra pour la perception visuelle
- Paramètres extrinsèques de la caméra – Les paramètres extrinsèques de la caméra sont exprimés sous forme de matrice, qui agit comme une matrice de transformation pour convertir le système de coordonnées du monde réel en système de coordonnées caméra. Il s’agit d’une combinaison de matrice de rotation et de translation. Cela dépend de la localisation et de l’orientation de la caméra.
- Paramètres intrinsèques de la caméra – Les paramètres intrinsèques de la caméra, décrits sous forme de matrice, servent à transformer le système de coordonnées caméra en système de coordonnées pixels. Cela dépend de facteurs internes tels que la longueur focale, le champ de vision, l’ouverture, etc.

La calibration de la caméra se fait à partir de motifs de référence comme le damier, des étiquettes AR et des codes QR, comme illustré à la figure 4. Les distorsions rencontrées par l’image du motif de référence sont utilisées pour obtenir les paramètres de la caméra. D’abord, la matrice intrinsèque est déterminée, puis la matrice extrinsèque, ce qui permet de corriger les distorsions et de localiser les objets. Il est recommandé d’utiliser plusieurs images pour augmenter la précision, et il est préférable de placer le motif de référence sur le même plan que l’objet réel d’intérêt.
Plusieurs images du motif de référence à différentes positions et orientations sont acquises, elles servent à calculer les paramètres intrinsèques. La rotation et la translation de la caméra peuvent également être déterminées et utilisées pour générer les paramètres extrinsèques. Ensuite, certaines coordonnées réelles du monde réel et leurs coordonnées d’image correspondantes sont utilisées pour calculer le facteur d’échelle (S, voir l’équation). Le facteur d’échelle est utilisé pour déterminer les dimensions de l’objet indépendamment de la distance entre la caméra et l’objet. Ainsi, les matrices intrinsèque et extrinsèque, ainsi que le facteur d’échelle, servent à convertir les coordonnées des pixels de la caméra en coordonnées du monde réel. Les coordonnées calculées peuvent être envoyées à différents types de robots, tels que les robots de préhension/dépose et les robots d’inspection pour la manipulation.

Figure 4. Application de la perception visuelle à l’aide de la calibration de la caméra
Applications
- Robot de préhension/dépose
- Systèmes de manutention
- Assemblage et inspection de la qualité
- Dimensionnement et comptage des objets
- Applications de test automatisé de dispositifs
Principaux avantages
- Élimine les interventions manuelles et réduit considérablement le temps de déploiement grâce à la calibration automatique
- Diminue les risques d’erreur humaine
- Réduit l’effort manuel nécessaire à la détermination de la calibration de la caméra
- Compense la distorsion de l’objectif (œil de poisson/barillet, distorsion de coussinet) et les désalignements de la caméra
- Améliore les images pouvant réduire l’erreur dans la ROC et d’autres applications
Inconvénients
- La qualité de l’image de référence et le nombre d’images influencent la qualité de l’estimation des paramètres de la caméra
- Un changement dynamique de la position de la caméra nécessite une capacité de calcul importante pour déterminer la variation des paramètres de la caméra
Les humains peuvent percevoir un objet dans une image et dans le monde réel avec peu ou pas d’effort, mais les machines dépendent d’algorithmes d’apprentissage et de reconnaissance de motifs pour percevoir un objet. Ainsi, toute distorsion ou bruit dans les images aura un impact significatif si elle n’est pas corrigée adéquatement. La calibration de la caméra s’impose comme une solution potentielle à ce problème, qui peut comprendre les distorsions rencontrées par la caméra et prendre des mesures correctives. Cela permet aux machines d’avoir une perception visuelle qui leur permet de vraiment comprendre les objets du monde à partir d’images captées par une caméra. Ainsi, ces connaissances peuvent permettre à des systèmes autonomes comme les robots de manipuler ou de naviguer sans heurt dans un environnement inconnu.

