La puissance de calcul se met au service de la vision

La puissance de calcul est une ressource toujours plus accessible. Cette tendance a un impact important sur la vision industrielle : elle rend possible aujourd'hui de nombreuses applications qui n'auraient pas pu voir le jour il y a encore quelques années, comme le machine learning (apprentissage automatique), qui permet une reconnaissance d'images plus fine qu'avec les algorithmes classiques. D'autres applications, moins nouvelles, se répandent de plus en plus, telles que la vision 3D ou les applications embarquées.

« L'embarqué est un marché assez vaste, aujourd'hui, on met des caméras partout », remarque Mithridate Mahmoudi, directeur commercial chez IDS Imaging Development Systems. Les cartes embarquées basées sur des processeurs ARM, comme le mini-PC Raspberry, ont commencé à inonder le marché. Ces processeurs présentent un ratio coût/performances intéressant pour les fabricants, et ont une consommation d'énergie relativement faible. On les trouve donc embarqués directement dans certaines caméras dite « intelligentes ». Plus largement, cette tendance a incité les fabricants à rendre leurs produits compatibles. « Il faut des drivers adaptés à ces processeurs ARM, précise David Lacroix, ingénieur commercial chez Elvitec. Aujourd'hui, beaucoup de fabricants proposent des solutions logicielles et des drivers adaptés à ce matériel. » La demande est grandissante, dans le secteur industriel comme militaire, scientifique ou médical. L'instrumentation ou les bornes interactives sont des applications qui peuvent tirer profit de la compacité des cartes basées sur ARM, tout comme les systèmes mobiles, qui nécessitent une consommation énergétique réduite.

La puissance de calcul disponible pour les applications de vision augmente. Cela permet notamment la mise au point de systèmes complets embarqués.

IDS Imaging Development Systems

« Pendant des années, ces systèmes ont été utilisés par des grandes entreprises, qui avaient les moyens de créer leurs propres cartes, rappelle Jonathan Vickers, responsable produits chez Stemmer Imaging. Aujourd'hui, il existe des produits sur étagère, comme les cartes Nvidia Jetson, qui rendent la démarche beaucoup plus facile, et moins chère. » Ces cartes permettent de réaliser l'acquisition d'images ou des tâches de traitement simples, comme la lecture de caractères. Elles peuvent s'intégrer dans un système distribué, au plus proche de la caméra, et se connecter à un PC plus puissant pour des traitements plus com-plexes. Comme les plateformes ARM sont de plus en plus utilisées dans l'industrie, il faut pouvoir y greffer des périphériques. « Souvent, lorsque nous avons des demandes pour des applications sur une base ARM, c'est que cette plateforme a été choisie pour la réalisation d'une machine, et que l'on a besoin d'y ajouter de la vision », observe David Lacroix (Elvitec).

ARM continue sur sa lancée

Les projets de systèmes de vision embarqués sur ARM devraient continuer à se multiplier. IDS s'est par exemple inspiré de la stratégie d'Apple, avec l'iPhone, pour transposer l'idée d'une plateforme de développement d'applications à la vision. « Notre gamme de produits NXT inclut une petite carte qui intègre l'ensemble du système, avec le processeur et la mémoire, décrit le directeur commercial de la société. Cela permet de faire fonctionner des applications développées par notre partenaire MVTec. Celles-ci sont dédiées à des tâches, telles que la reconnaissance de forme, de caractères ou la mesure dimensionnelle. »

Les utilisateurs pourront également développer leurs propres applications, et éventuellement les partager ou les vendre via un serveur dédié. À l'avenir, ARM compte bien continuer à s'implanter sur le marché de la vision. En mai 2017, l'entreprise a en effet racheté à cet effet Apical, une société spécialisée dans l'imagerie et la vision embarquée. L'augmentation de la puissance de calcul disponible permet par ailleurs l'arrivée de l'apprentissage automatique dans l'industrie. On parle également de machine learning, de deep learning (apprentissage profond), ou encore d'apprentissage statistique. Il s'agit d'algorithmes d'apprentissage automatique, capables de modéliser des données avec un haut niveau d'abstraction.

Appliquée à la vision, cette méthode permet d'établir des liens entre une grande quantité d'images de référence, afin d'apprendre à reconnaître certaines caractéristiques. C'est ce type de procédés qu'utilise Google pour flouter automatiquement les visages et les plaques d'immatriculation apparaissant dans les photographies de son service Street View. Souvent, ces algorithmes sont mis en pratique par des réseaux de neurones artificiels, des systèmes mettant en jeu une logique probabiliste et s'inspirant des neurones biologiques. Mais différentes méthodes existent.

La vision 3D se développe beaucoup en robotique, en particulier dans les applications de pick-and-place, nécessitant de saisir des objets en vrac.

Cognex

Cette tendance est tirée par les géants du Web, qui y voient de nombreuses applications possibles. « L'industrie va aussi en profiter, estime David Lacroix (Elvitec). Le marché se cherche un peu, mais beaucoup de solutions émergent aujourd'hui. »

« C'est très intéressant pour les défauts difficiles à traiter par des algorithmes classiques, comme une maille manquante sur le motif d'un tissu, ou des défauts esthétiques dans l'agroalimentaire », ajoute Abel Gagne, responsable des ventes chez Cognex. Si l'œil humain repère facilement ce type de défauts, ils sont difficiles à caractériser de manière précise, de façon à être reconnaissables par un système automatique. De même, le secteur agricole peut bénéficier de l'apprentissage automatique, par exemple pour automatiser l'évaluation de la maturité d'une production dans un champ. « En vision classique, il faut avoir des caractéristiques géométriques répétables », note David Lacroix (Elvitec). Le deep learning permet de détecter, mais aussi de classifier des défauts ne répondant pas à cette contrainte.

Plusieurs méthodes permettent d'obtenir un nuage de points 3D. Chacune présente des avantages et des inconvénients à prendre en compte selon l'application recherchée.

Stemmer Imaging

Pour mettre ce type d'applications à son catalogue, Cognex a ainsi racheté la société ViDi Systems en 2017. Elle propose aujourd'hui un algorithme de deep learning en trois versions : une pour la reconnaissance de formes, une autre pour l'analyse de défauts et une dernière pour la lecture de caractères.

Cette dernière application tire profit de l'apprentissage automatique lorsque la forme des lettres peut varier. « C'est éga-lement plus rapide que les méthodes classiques, précise Jonathan Vickers (Stemmer Imaging). Il est possible de lire jusqu'à 160 000 caractères par seconde. »

L'entreprise propose le module Minos, dans sa bibliothèque Common Vision Blox, pour une telle application et commercialise également le module Polimago, capable de classifier des images grâce à un système d'apprentissage.

Concrètement, pour mettre en place un système d'apprentissage automatique, « on lui montre des images, en indiquant lesquelles sont bonnes. Le système apprend ainsi les caractéristiques d'une bonne image, ce qui lui permet de reconnaître des défauts », conti-nue Abel Gagne (Cognex). À l'inverse, il est possible de lui présenter un maximum de défauts différents, pour lui apprendre à les reconnaître. En général, plus grand sera le nombre d'images, plus robuste sera l'algorithme. « Mais dans certains cas, multiplier les images risque de créer du bruit, prévient le responsable des ventes de Cognex . Cela peut arriver si certains défauts sont trop particuliers, ou si l'on a une dispersion très importante. Si les cas présentés sont trop différents, il devient en effet difficile de trouver les points communs. » Dans ce cas, la stabilité de l'algorithme peut être mise à mal. Mieux vaut alors segmenter la bibliothèque d'images en plusieurs catégories.

L'apprentissage automatique accélère

Pour des applications industrielles, l'apprentissage se doit d'être rapide. C'est pourquoi les systèmes d'apprentissage automatique dédiés à l'industrie misent sur une bibliothèque d'images réduite.

« Notre système commence à être stable à partir d'une centaine d'images », précise Abel Gagne. Polimago, de Stemmer Imaging, peut fonctionner à partir de 20 à 50 images. « La plupart des applications basées sur les réseaux de neurones artificiels requièrent environ un millier d'images. Dans la plupart des cas, cela n'est pas adapté à l'industrie », compare Jonathan Vickers (Stemmer Imaging). MVTec, avec son logiciel Halcon, propose des classifications préétablies : cela permet de réduire la quantité d'images nécessaires. « De plus, il existe des méthodes pour générer des images synthétiques par traitement d'images , explique David Lacroix (Elvitec). Bien préparer son classifieur est le plus important. On peut aussi continuer de l'alimenter plus tard si besoin est, en y réinjectant de nouvelles images ».

L'éclairage multispectral

L'éclairage est un élément parfois sous-estimé des systèmes de vision. Ce domaine connaît également des évolutions, notamment avec l'éclairage multispectral. Celui-ci produit une lumière à très large spectre, et permet d'analyser le retour selon les différentes longueurs d'onde. Le système Multispectrum de Keyence, par exemple, découpe le spectre en 8 plages de longueurs d'onde, de l'infrarouge à l'ultra-violet (UV). « Cela contribue à simplifier la vision, estime Brieuc Chevalier, responsable des ventes en vision et en mesure haute précision chez le fabricant. On peut ainsi obtenir plusieurs images selon plusieurs éclairages, ce qui nécessitait auparavant un savoir-faire particulier. » L'éclairage peut être piloté par un contrôleur et synchronisé avec le capteur. L'objectif est d'obtenir une distinction plus fine des couleurs, par exemple dans les cosmétiques ou pour certaines peintures. C'est également un moyen de rendre une application de vision plus flexible, en n'ayant pas à changer l'éclairage en fonction du produit.

Le principe de l'apprentissage automatique n'est pas une nouveauté : « Nous l'utilisons depuis 1997, rappelle Jonathan Vickers (Stemmer Imaging). Notre premier outil basé sur l'apprentissage automatique est sorti en 2002. Manto était capable d'identifier et de classifier des défauts. Mais le marché n'était pas encore prêt, car les applications étaient trop lentes. » Outre l'apprentissage, le temps de réponse était également inadapté. L'arrivée de processeurs graphiques (GPU) dans l'industrie a permis d'accélérer la tendance. « Mais pour en tirer pleinement profit, il faut un processeur graphique autonome, et pas intégré au processeur classique, comme on le voit souvent », précise le responsable produit de Stemmer Imaging. Or cela représente un coût plus important. Pour éviter le recours à un GPU, Stemmer Imaging et MVTec ont misé sur des algorithmes capables de fonctionner sur un processeur standard.

« Il est important que les développeurs considèrent les autres possibilités avant de se lancer sur l'apprentissage automatique », prévient JonathanVickers. « L'apprentissage automatique ouvre la porte à de nouvelles applications, résume Abel Gagne (Cognex). Il n'est pas utile de passer ce qui fonctionne déjà avec des applications standard vers du deep learning. Mais pour les applications limites, avec trop de paramètres différents, il y a un véritable intérêt. » Cette tendance ne fait que démarrer dans l'industrie. « Aujourd'hui, le marché se cherche un peu, estime David Lacroix (Elvitec). Il faut que les développeurs travaillent sur des applications, pour voir ce que ces algorithmes peuvent apporter pour des besoins spécifiques ».

La 3D confirme son implantation

La vision 3D, elle, a passé ce stade de tâtonnement. « Il y a encore quelques années, les entreprises faisaient du prototypage, rappelle David Lacroix. Beaucoup ont investi en recherche et développement dans ce domaine. Maintenant, les applications sont concrètes. » La 3D est aujourd'hui mature et bien implantée dans l'industrie, là encore grâce à l'augmentation de la puissance de calcul disponible. Les applications sont désormais compatibles avec les temps de cycle de l'industrie.

« C'est devenu normal, observe Jonathan Vickers (Stemmer Imaging). Aujourd'hui, les clients s'attendent à pouvoir mettre en place des applications 3D. Cela devient de plus en plus facile et, dans les années à venir, le prix va diminuer ».

Les applications sont vastes : « compter des objets blancs sur un fond blanc est difficile en 2D, illustre David Lacroix (Elvitec). Mais en 3D, la hauteur des objets permet de les différencier beaucoup plus facilement. » Les robots ou véhicules autonomes ont également besoin de la 3D, pour la détection de personnes ou d'obstacles. On les retrouve dans l'industrie, particulièrement en logistique, mais également dans l'agriculture, voire dans le milieu médical. Une application de la 3D est particulièrement en vogue : le bin picking automatisé, où un robot doit être capable de saisir des objets en vrac.

« C'est un domaine en forte croissance chez nous », indique Mithridate Mahmoudi (IDS). « Nous observons un essor des applica-tions en robotique , confirme David Lacroix (Elvitec). Actuellement, lorsqu'un objet doit être maintes fois déplacé dans une usine, les opérations sont souvent manuelles. Pour automatiser ces tâches, il faut que les robots localisent facilement les objets et reconnaissent leur position. » L'inspection est une autre application courante : elle nécessite en effet de mesurer des diamètres, des longueurs, de comparer point à point un objet produit et son modèle théorique pour en valider la conformité. Certains algorithmes permettent même de comparer des surfaces.

Les capteurs 3D embarquent eux aussi de l'intelligence. Certains modèles sont ainsi conçus pour être montés sur des machines ou des véhicules.

ifm electronic

Il existe différentes façons de mettre en place de la vision 3D. La triangulation laser consiste à projeter une ligne laser, sous laquelle défilent les objets. Le volume est reconstitué grâce à la déformation de la ligne. La projection de franges est une autre méthode, qui repose également sur la déformation d'un motif projeté : un réseau de lignes laser. Mais celle-ci ne nécessite pas de faire défiler les objets. La société slovaque Photoneo, par exemple, propose ce type de technologie, avec des capteurs 3D pourvus d'une plateforme embarquée Nvidia Jetson. Fin 2016, Cognex a racheté l'entreprise allemande EnShape pour ajouter cette technologie à son catalogue. La vision stéréoscopique, elle, reproduit le principe de la vision humaine grâce à deux caméras légèrement décalées, dont l'orientation est connue.

Des algorithmes apparient les points observés de chaque côté et calculent leur coordonnées dans l'espace. Cela peut être combiné avec la projection d'un motif laser : c'est le principe notamment de la gamme Ensenso d'IDS.

On peut également produire une image 3D grâce à la technologie de « temps de vol ». ifm electronic a misé sur ce système : « On envoie une onde, qui revient au capteur avec un déphasage, explique Damien Legrand, chef de projets Systèmes de vision chez ifm electronic. On obtient ainsi sur chaque pixel une information de déphasage dont on peut déduire une distance. »

Enfin, il est aussi possible de reconstituer un volume à partir d'une image 2D, comme le propose par exemple une fonction de Polimago, de Stemmer Imaging. Selon la nature des matériaux, le défilement de l'objet, sa distance ou encore le volume à traiter, l'une ou l'autre de ces technologies sera mieux adaptée.

L'évolution des systèmes de vision 3D va dans le sens d'une intégration de la puissance de calcul aux capteurs. C'est la stratégie, entre autres, de Photoneo avec ses scanners Phoxi, de Stemmer Imaging avec la gamme LMI Gocator, ou encore des capteurs O3D d'ifm electronic. Cela peut aller de pair avec l'intégration de certaines fonctions logicielles préprogrammées : « Nous avons développé nos propres firmwares », indique Damien Legrand (ifm electronic). Ces firmwares sont conçus pour des applications simples, telles que le dimensionnement de colis, la détection de présence ou de niveau. Cela intéresse les entreprises n'ayant pas les moyens de développer leurs propres applications, mais pas seulement : « comme nous maîtrisons entièrement la partie matérielle du système, nous sommes capables d'optimiser complètement ces applications, là où un client n'exploiterait peut-être pas les ressources disponibles à 100 % », continue Damien Legrand. Or un temps de calcul trop long a un impact négatif sur la productivité. « Mais notre système est ouvert et permet également à l'utilisateur de développer ses propres algorithmes », précise-t-il.

Les données fusionneront

Tous les éléments nécessaires évoluent dans un sens favorable aux applications 3D. Comme la capacité de calcul, les interfaces d'acquisition, par exemple, ont gagné en puissance.

L'environnement disponible permet donc la mise en place de fonctions toujours plus puissantes. « On obtient des millions de points lorsque l'on reconstruit un objet en 3D, et il est possible d'y rechercher les différentes occurrences d'un modèle, explique David Lacroix (Elvitec). Mais il faut des capacités de calcul suffisantes. Le bin picking, notamment, est une application gourmande. Mais le délai lié au déplacement du robot permet de gagner du temps de calcul ».

À l'avenir, différents systèmes de vision, mais aussi de détection, pourraient collaborer de plus en plus en plus souvent dans le cadre de la fusion de données. « C'est une tendance claire, estime Damien Legrand (ifm electronic). C'est le Graal en termes de sécurité intelligente. » En effet, avec un système classique, un scrutateur de sécurité coupe une machine lorsqu'il détecte quelque chose dans une zone dangereuse. Mais il n'est pas capable de savoir s'il s'agit d'une personne ou d'une machine. La fusion de données vise à accéder à ce niveau d'analyse à partir d'informations tirées de capteurs différents, pour profiter des points forts de chacun. « Une autre application peut être de s'assurer de voir un grillage, continue Damien Legrand. C'est quelque chose que l'on voit différemment avec un scrutateur ou une caméra 3D. » Un robot ou véhicule autonome pourrait ainsi déterminer l'action la plus cohérente face à un obstacle, quel qu'il soit. Bien sûr, cela demande une puissance de calcul importante. Mais des cartes telles que les produits de Nvidia devraient contribuer à l'essor de la fusion de données.

L'apprentissage automatique permet de reconnaître des éléments difficiles à détecter avec les méthodes traditionnelles. Il est particulièrement adapté la reconnaissance de défauts aux formes irrégulières.

MVTec

La simplification de l'utilisation est une autre tendance générale dans l'industrie, et la vision s'y conforme elle aussi. « Le mot d'ordre est de rendre accessible, résume Brieuc Chevalier, responsable des ventes en vision et en mesure haute précision chez Keyence. Une usine doit pouvoir fonctionner sans spécialistes de la vision, les applications doivent donc pouvoir être installées et mises en route sans nécessiter de connaissances particulières. » Ainsi, ifm electronic met en avant la possibilité de configurer une caméra 3D « en seulement 5 à 10 minutes, sans avoir de formation », selon Damien Legrand. Même les applications en robotique évoluent dans ce sens : « Nous avons mis au point un système avec auto-calibration, continue le responsable des ventes de Keyence. La caméra permet la correction automatique des imprécisions du robot, là où auparavant il fallait recalibrer à chaque déviation, selon une méthode dépendante de l'intégrateur. » La partie matérielle se voit elle aussi simplifiée : « les caméras de notre gamme InSight sont de plus en plus autonomes et faciles à utiliser, avec par exemple la mise au point automatique », indique Abel Gagne (Cognex).

L'intégration est également plus aisée, par la compacité, mais aussi le facteur de forme. L'éclairage est intégré, et le changement de filtre ou de lentille est conçu pour être simple. » Les interfaces des logiciels suivent bien sûr cette tendance. « Notre interface utilisateur est identique sur toute la gamme, des applications de base aux plus complexes », continue Abel Gagne. Sur de nombreux produits, la connexion à distance est possible via des interfaces web, avec n'importe quel terminal. Même pour les outils de pointe, comme l'apprentissage automatique, les fabricants gardent ce souci de simplicité. « Notre logiciel de vision Sherlock est conçu comme un environnement où il suffit de pointer et cliquer, et nous continuons de le faire évoluer vers une prise en main simplifiée , explique JonathanVickers (Stemmer Imaging). Nous y avons intégré l'outil Polimago, pour que les non-spécialistes puissent y accéder également, de la façon la plus simple possible, y compris pour la phase d'apprentissage du logiciel ».

Malgré ces facilités d'usage, l'accompagnement reste un élément important des applications de vision. De nombreuses technologies permettent de mettre en place un système 3D, l'apprentissage automatique permet de nouvelles applications, la puissance de calcul embarquée pousse à repenser certaines architectures. Face à cela, le choix d'un capteur ou d'un logiciel peut être difficile. « Si l'on veut qu'un système soit bien utilisé, il faut accompagner les clients. Malgré les possibilités d'interventions à distance, les clients aiment être assistés lorsqu'ils sont confrontés à des difficultés, qui ne viennent parfois pas du système de vision.

Les fabricants doivent s'y adapter », conclut Brieuc Chevalier (Keyence).