Si vous êtes sur ce blog, vous avez sans doute appris l'importance des méthodes de télédétection comme les relevés aériens pour le suivi des populations de baleines. En capturant des milliers d'images détaillées qui couvrent l'habitat des baleines, nous pouvons connaître leur nombre, leur proximité avec la terre et avoir un aperçu de la santé de leur population. Ces informations sont d'une importance vitale pour de nombreuses personnes travaillant dans des secteurs tels que les voyages et le tourisme, les services portuaires, la pêche et la navigation.
Compte tenu de l'immense volume d'images impliqué, l'analyse des données de ces agences et entreprises pour en déduire les informations pertinentes sur la présence des baleines est un effort qui prend du temps et qui est donc coûteux. Une partie de cet effort consiste à sélectionner à la main des sections des images qui sont des terres, de la glace, une couverture nuageuse et un éblouissement afin de pouvoir donner une estimation précise de la zone où nous aurions pu trouver des baleines -- ce qui est essentiel pour dériver des statistiques telles que la densité par zone. La mise en évidence d'un ensemble de régions ou d'objets dans une image, comme des morceaux de glace ou des sections de terrain rocheux, ne semble pas particulièrement difficile pour un être humain, mais si l'on multiplie cela par des milliers d'images de plus de 5 000 x 7 000 pixels, cela devient un véritable gouffre. Sans parler de facteurs comme la fatigue et l'expérience du lecteur, qui peuvent compromettre la qualité et la répétabilité des résultats. Si ces estimations sont imprécises, les personnes qui s'appuient sur ce type de données pour prendre leurs décisions risquent d'être mal informées et donc de faire des choix potentiellement désastreux, tant pour leurs entreprises que pour les baleines.
Crédit photo : Pêches et Océans Canada
Étant donné que les différences entre les caractéristiques d'intérêt ne sont pas trop difficiles à distinguer pour les humains, mais qu'elles contiennent suffisamment de nuances pour que les algorithmes traditionnels de vision par ordinateur, tels que le regroupement par seuil, échouent, ce problème est un candidat de choix pour l'apprentissage profond. Lorsqu'il s'agit de segmenter (c'est-à-dire de mettre en évidence) des régions d'intérêt dans des images, notamment en raison de l'existence d'étiquettes provenant d'ensembles de données précédemment annotés, l'architecture U-Net est omniprésente.
Le U-Net a été développé dans le contexte de l'interprétation de l'imagerie médicale. Étonnamment, il est passé inaperçu dans la communauté de la vision par ordinateur pendant quelques années, jusqu'à ce qu'il commence à gagner plusieurs concours importants de science des données et que son potentiel et sa nouveauté deviennent évidents (à ce jour, l'article original compte près de 25 000 citations). Dans de nombreux domaines médicaux, les cas d'utilisation sont innombrables, par exemple la segmentation d'organes pour le calcul du volume ou la détermination des limites chirurgicales, la segmentation de nodules pour effectuer des dérivations de données similaires, la segmentation de lésions entre les scans pour déterminer le taux de progression. En outre, les méthodes traditionnelles de vision par ordinateur échouent souvent pour certaines tâches en raison de l'hétérogénéité et de la variabilité des données d'entrée et de la complexité des caractéristiques de l'image qui constituent des régions d'intérêt particulières. C'est donc dans le but d'automatiser ces processus et de faire profiter les cliniciens de la valeur de l'apprentissage profond que le U-Net a vu le jour.
Le réseau U-Net doit son nom au fait que certaines sorties des blocs convolutifs de départ sont également introduites dans les blocs déconvolutifs ultérieurs, ce qui lui donne l'apparence d'un U dans les représentations architecturales.
Source : Département d'informatique, Université de Freiberg
Les U-Nets sont formés sur des images en utilisant des masques binaires des régions d'intérêt comme cibles d'apprentissage. Cela signifie que, pour chaque pixel de l'image originale, au lieu de la valeur RVB de ce pixel, le masque contient l'étiquette de classe de ce pixel, par exemple 0 pour absence de poumon (hors des régions d'intérêt), 1 pour poumon (à l'intérieur des régions d'intérêt). Par conséquent, les U-Nets sont entraînés à produire des versions numérisées et simplifiées des images d'entrée où chaque pixel est étiqueté en fonction de la classe à laquelle le modèle pense qu'il appartient, par exemple terre, glace, eau, etc. Ce qui le rend également extrêmement utile pour de nombreux problèmes du monde réel, c'est que le U-Net peut être entraîné à produire des segmentations pour des problèmes multi-classes. En d'autres termes, lorsqu'un médecin a annoté les poumons, un nodule, une opacité pulmonaire, le cœur, etc. dans un ensemble de données, le modèle U-Net peut apprendre à segmenter tous ces éléments simultanément.
C'est également la raison pour laquelle il s'agit d'un outil si puissant dans l'effort visant à réduire la charge des reporters de levés aériens en automatisant une partie de leur travail manuel. Ce type de modèle peut être entraîné à une tâche, telle que la détection et la segmentation des terres, mais il peut aussi être très facilement étendu pour prédire d'autres régions utiles grâce à l'ajout de nouvelles données étiquetées. C'est l'approche utilisée sur Whale Seeker. Puisque nous possédons un large ensemble d'annotations faites avec amour par nos experts biologistes, nous pouvons facilement les convertir en formats conviviaux pour l'apprentissage automatique et ensuite entraîner un U-Net pour segmenter les régions importantes dans les images aériennes. Initialement, cette expérience a été réalisée sur la détection des terres, mais étant donné la flexibilité du modèle, il est également simple de l'étendre à d'autres caractéristiques du paysage.
Ce résultat souligne le potentiel de l'U-Net, malgré ses débuts modestes dans l'IA médicale, pour aborder un large éventail d'applications dans le domaine de la vision par ordinateur. Bien que le croisement entre des domaines tels que l'interprétation de l'imagerie médicale et la conservation des baleines puisse sembler exagéré, avec l'équipe multidisciplinaire de Whale Seeker, ces connexions sont claires.