Et si nous regardions à travers les murs ?

Après l’essor de l’intelligence Artificielle dite « générative », un autre secteur a également fait un véritable « bond en avant » ces derniers temps :  Computer Vision (ou la vision par ordinateur)

Pour synthétiser, la technologie « Computer Vision », c’est la capacité à partir d’une image fixe (ou animée) et grâce à l’Intelligence Artificielle, de déceler/d’identifier des objets ou des personnes en « temps réel ».

Aujourd’hui nous nous intéressons aux travaux menés par une équipe de scientifiques de l’Université de Carnegie Mellon qui a élaboré une solution permettant de localiser et d’afficher le contour des personnes dans une pièce, simplement en utilisant Wi-Fi.

Les technologies actuelles de localisation utilisent principalement des caméras RGB ou le LIDAR pour représenter sous forme de points, le contour des différents éléments du corps humain dans un plan 3D. C’est à dire qu’à partir d’une image, les systèmes peuvent déceler, et isoler la forme des corps dans l’environnement sous-jacent.

Malheureusement la réelle position exacte de ces points, et donc de la personne, est souvent faussée par les phénomènes d’occlusion (des points se chevauchent entre eux lorsque les corps sont trop proches) ou lors d’une très forte luminosité qui perturbe le traitement de l’image en masquant certaines zones.

Pour remédier à cela, les chercheurs de Carnegie s’appuient sur des algorithmes DensePose qui se déroule en plusieurs étapes :

1. Le système scanne et découpe les différentes parties du corps en effectuant une phase dite « Part segmentation » sur l’image (on découpe et isole le contour de la tête, du ventre, des jambes etc..) et ce, même si la personne est habillée !

2. Le système calcule un ensemble de points équidistants représentatifs des zones récupérées afin de définir une « carte d’identité » de la partie du corps concernée.

3. A partir d’un Dataset (COCO Dataset) intégrant l’ensemble des positions des corps et des algorithmes propres au Machine Learning, le système va pouvoir « coller » la représentation géométrique des points sur toutes formes humaines. La puissance de ce système réside sur la base d’annotations (les points) qui intègre plus de 5 millions de références (et donc de poses différentes).

Découpage en utilisant DensePose

Le séquencement DensePose

Une fois que le corps est « reconnu », il faut le positionner dans l’espace 2D de l’image, mais comment s’assurer que le corps est placé correctement dans l’espace sans caméra?

Comme nous l’avons vu, le système définit une ensemble de points équidistants pour définir la cartographie du corps. En équipant une pièce de plusieurs bornes Wifi en triangulation et des récepteurs, les chercheurs utilisent les informations CSI du signal Wi-Fi (distance entre l’émetteur et le récepteur) pour ainsi isoler et « découper » les différents parties du corps sous la forme de points (le système calcule le temps réalisé entre la borne et le récepteur et prend ainsi les différentes fluctuations du signal qui correspond à la présence d’un objet ou d’une personne)

A partir de ces points récoltés, l’algorithme DensePose fournit une représentation prédictive des corps à partir de son Dataset « entrainé ».

Plus de problèmes d’occlusion ou de lumière trop forte puisque le système se base uniquement sur une représentation géométrique.

Le système est encore en phase BETA mais il reste prometteur car il permettrait de localiser des personnes à partir d’un système que l’on utilise au quotidien (bornes Wi-Fi).

Il peut donc être exploitable rapidement dans les lieux privés et publics afin peut être de trouver des personnes qui seraient perdues ou en situation de détresse.

Un moyen finalement de voir à travers les « murs » ?.

A bientôt.

Rémy