IA, analyse d’image et réalité augmentée : ce qui marche vraiment dans l’industrie

Dans l’industrie, l’analyse d’image par intelligence artificielle apporte aujourd’hui plus de valeur concrète que la réalité augmentée spatialisée. Là où les lunettes de réalité mixte promettaient de superposer de la 3D au réel, la majorité des projets industriels utiles reposent en fait sur du traitement d’images et du deep learning qui segmentent, mesurent et classent — pour renvoyer une information 2D directement exploitable. Voici pourquoi, et ce que cela change pour vos cas d’usage.

Réalité augmentée et analyse d'image : de quoi parle-t-on ?

Avant d’entrer dans le détail, posons les mots, car la confusion est fréquente côté client. Deux familles de technologies sont souvent rangées sous la même étiquette « réalité augmentée » alors qu’elles répondent à des besoins différents.

La réalité augmentée (AR) superpose des éléments virtuels au monde réel et les ancre dans l’espace : c’est le spatial computing. Vous regardez une machine et des informations 3D viennent se « coller » dessus, en restant à leur place quand vous bougez la tête.

L’analyse d’image par IA répond à un autre besoin. Elle ne cherche pas à fusionner virtuel et réel : elle interprète ce que voit une caméra. Un algorithme segmente une image, mesure une pièce, classe un produit ou détecte une anomalie, puis renvoie un retour le plus souvent en 2D — une vue de dessus, ou la localisation des zones repérées.

En résumé : la réalité augmentée vise l’immersion, l’analyse d’image vise l’aide à la décision. Cette distinction explique pourquoi ces deux familles ont connu des destins industriels très différents.

Réalité augmentée et analyse d'image : de quoi parle-t-on ?

La promesse initiale : une 3D spatialisée, vue naturellement

Vers 2018, une nouvelle génération de périphériques a relancé une promesse ancienne, nourrie par le cinéma de science-fiction — pensez à l’interface gestuelle de Minority Report. L’idée : une 3D spatialisée, manipulée d’un geste, perçue de façon naturelle, qui augmenterait notre vision du monde.

Le discours, porté notamment autour des HoloLens de Microsoft, a été largement survendu. Certaines startups se positionnaient même exclusivement sur ce créneau, via des partenariats technologiques avec les grands acteurs du secteur. La chirurgie en offrait l’exemple le plus parlant : il est séduisant d’imaginer un chirurgien doté d’informations visuelles augmentées en surimpression du champ opératoire. Dans les faits, les systèmes n’étaient pas assez précis. Ils se sont transformés en dispositifs de « visée haute », affichant des informations à côté du geste plutôt que parfaitement calées dessus.

La réalité technique était plus rude

Au final, peu d’usages industriels réellement aboutis ont émergé, le reste relevant souvent du déceptif. Les limites étaient concrètes et cumulatives :

Form factor trop encombrant pour un port prolongé.
Autonomie insuffisante : en moyenne 2 h à 2,5 h, vite épuisée quand on combine AR 3D et analyse d’image.
Champ de vision réduit : environ 50° pour les meilleures lunettes, contre près de 180° pour la vision humaine horizontale.
Détection de la voix et des gestes encore peu fiable.

L’approche majoritaire de l’époque était le see-through (voir au travers d’un verre sur lequel on projette le virtuel). Elle souffrait d’une faible luminosité des éléments virtuels et d’un champ de vision étroit, qui tronque l’affichage. Surtout, le calage entre réel et virtuel était sujet au drift et exigeait, pour tout travail de précision, des dispositifs lourds comme des marqueurs physiques.

L’interaction posait elle aussi problème. Geste, gaze (visée du regard) et voix se partageaient le pilotage, chacun avec ses limites : absence de retour haptique, fatigue à lever la main dans un champ de vision étroit, sensibilité de la reconnaissance vocale au bruit ambiant.

L'évolution : du see-through au pass-through, puis vers l'analyse d'image

Dans l’activité d’Octarina, l’évolution a suivi la réalité industrielle. Nous avons mené des projets de spatial computing avec lunettes — souvent des preuves de concept (POC) ou des applications marketing, il faut le reconnaître. Mais l’essentiel des demandes étiquetées « réalité augmentée » par nos clients reposait en réalité bien moins sur l’affichage de 3D intégrée au réel que sur de l’analyse d’image.

En parallèle, la réalité mixte spatialisée passait du see-through au pass-through : la caméra filme le réel et le réaffiche sur un écran interne, ce qui réduit les problèmes de luminosité. Les casques de réalité virtuelle en mode pass-through ont ainsi remplacé, pour la grande majorité, les dispositifs see-through. Mais l’usage industriel concret — hors marketing — continuait de stagner, et ces casques prometteurs gardaient un vrai problème de positionnement, notamment à cause d’un form factor trop volumineux.

Ce que fait concrètement Octarina

L’usage le plus pragmatique ressemble davantage à de l’analyse d’image avec un retour 2D : visée haute, ou localisation des zones identifiées par l’algorithme. Le projet Nexans en est un bon exemple : une application qui vérifie le montage de jonctions de câble moyenne tension, déployable sur n’importe quel smartphone et fonctionnant sans connexion internet. À la fin de sa vérification, le technicien dispose d’un rapport indiquant quelles étapes sont correctes (voir notre cas d’usage contrôle qualité IA).

Concrètement, cette approche repose sur :

des algorithmes de traitement d’images classiques ;
du deep learning (réseaux de neurones convolutifs, labellisation au format YOLO) ;
pour faire de la segmentation, de la mesure et de la classification (en savoir plus sur deep learning et contrôle qualité).

Ces solutions sont portables : elles s’installent aussi bien sur des lunettes, des casques que sur une caméra indépendante ou un smartphone. L’usage couple traitement d’images classique et deep learning, sans dépendre du spatial computing, mais en s’appuyant sur l’analyse et le retour d’image 2D.

L’avantage est décisif : ces systèmes fonctionnent en local sur des dispositifs technologiquement plus modestes, avec un form factor acceptable et une autonomie décente. Et un critère trop souvent négligé : l’acceptation sociale. Une caméra ou des lunettes légères passent là où un casque imposant ne passe pas. C’est tout l’esprit de Pocket Vision, notre solution d’inspection visuelle embarquée.

Spatial computing vs analyse d'image : le comparatif

Le tableau ci-dessous résume les écarts entre les deux approches pour un usage industriel.

Critère	Spatial computing (réalité mixte)	Analyse d’image par IA
Principe	Superposer de la 3D ancrée dans le réel	Interpréter l’image, renvoyer un retour 2D
Matériel requis	Casque/lunettes avancés, parfois marqueurs	Caméra, smartphone ou lunettes légères
Calcul	Souvent exigeant	Possible en local (inférence edge)
Autonomie / form factor	Contraignants (2–2,5 h)	Acceptables
Acceptation sociale	Faible (dispositif visible et lourd)	Bonne
Maturité industrielle	Émergente, encore avant-gardiste	Opérationnelle aujourd’hui

Ce que l'avenir réserve aux lunettes connectées

Le spatial computing reste, à ce jour, très avant-gardiste et peu industrialisable. Les lunettes de type « visée haute » percent surtout dans l’aide à l’utilisateur ou l’assistance à distance. Chez Octarina, nous avons fait le choix d’algorithmes portables sur n’importe quel device. Et l’on commence à voir apparaître des fonctions de spatial plus modestes, au moins pour se repérer, sur des lunettes au form factor enfin admissible.

L’avenir industriel semble donc plus proche pour des lunettes légères de type Ray-Ban Meta, capables de signaler et de localiser, que pour des lunettes complexes de réalité mixte. Reste la question de la killer app. Dans l’industrie, des usages spécifiques émergent naturellement, sous la contrainte de la maturité technologique. Dans le grand public, des modèles comme les Ray-Ban Meta, la Meta Ray-Ban Display ou les lunettes de Xreal font émerger un usage évident : remplacer le téléphone pour la prise de photos, la navigation ou la traduction.

Cette voie est sans doute la plus naturelle pour une adoption progressive. Une fois que les lunettes auront remplacé le téléphone, elles deviendront un objet courant, qui évoluera et s’invitera plus naturellement dans le monde professionnel.

Souvenons-nous de l'effet diligence

Plutôt qu’une rupture totale, c’est une approche pas à pas qui s’impose, fondée sur une vraie maturité technologique. C’est tout le sens de l’effet diligence, notion définie par Jacques Perriault : une invention met du temps à devenir une innovation socialement acceptée, et pendant cette acclimatation, on applique aux techniques nouvelles des protocoles anciens. Le terme vient des débuts du chemin de fer, quand les wagons gardaient la forme des diligences tirées par des chevaux (voir la définition de l’effet diligence sur Wikipédia).

La leçon vaut pour nos sujets : contrairement à ce que répète le discours dominant, le disruptif n’est pas toujours la solution — ni même, parfois, possible. L’analyse d’image par IA, plus discrète et déjà opérationnelle, illustre cette montée en puissance par étapes.

FAQ

Quelle différence entre réalité augmentée et analyse d’image par IA ?

La réalité augmentée superpose des éléments virtuels 3D au monde réel et les y ancre spatialement. L’analyse d’image par IA, elle, interprète une image — segmentation, mesure, classification, détection d’anomalies — et renvoie une information 2D, souvent une vue de dessus ou une localisation des zones détectées. La première vise l’immersion, la seconde l’aide à la décision.

Pourquoi les lunettes de réalité mixte peinent-elles à s’industrialiser ?

Elles restent limitées par leur form factor, leur autonomie (souvent 2 à 2,5 h), leur champ de vision réduit (environ 50° contre 180° pour la vision humaine) et la difficulté de caler précisément le virtuel sur le réel sans marqueurs. Le passage du see-through au pass-through a réglé une partie des problèmes de luminosité, mais l’usage industriel concret stagne et l’acceptation sociale reste un frein.

Faut-il un casque coûteux pour faire du contrôle qualité par vision ?

Non. Un algorithme de traitement d’images couplé à du deep learning peut tourner en local sur du matériel modeste : une caméra industrielle indépendante, un smartphone, ou des lunettes légères de type visée haute. C’est l’approche portable retenue par Octarina avec Pocket Vision, qui fonctionne aussi sans connexion internet.

Qu’est-ce que l’effet diligence appliqué aux lunettes connectées ?

L’effet diligence, défini par Jacques Perriault, décrit le temps qu’une invention met à devenir une innovation socialement acceptée. Appliqué aux lunettes connectées : l’adoption passera d’abord par un usage simple et familier — remplacer le téléphone — avant d’évoluer vers des usages professionnels avancés.

En résumé

Pour les industriels, le bon réflexe n’est pas de courir après la réalité mixte la plus spectaculaire, mais d’identifier où l’analyse d’image par IA crée de la valeur dès aujourd’hui : contrôle qualité, mesure, détection d’anomalies, le tout sur du matériel sobre et accepté par les équipes. Le spatial computing viendra ensuite, par étapes.

Vous avez un besoin d’inspection visuelle ou de contrôle qualité ? Découvrez Pocket Vision ou demandez un audit de faisabilité à l’équipe Octarina.

.Contactez-nous

Voir aussi : les lunettes AR sont-elles prêtes pour l’industrie ? et deep learning et contrôle qualité. — Publié dans Réalité augmentée, Computer vision, IA.