top of page
Photo du rédacteurMaxence Longle

L'IA éthique commence par l'étiquetage


L'importance des données (et de leur abondance) pour l'IA n'est plus à démontrer. Ce qui est moins connu, mais de plus en plus évident, c'est que la disponibilité des données (et non la conception des algorithmes) est le principal obstacle à la plupart des applications d'IA.


La croyance selon laquelle la quantité pure, plutôt que la qualité des données, fait le succès ou l'échec des projets d'IA, a conduit à une "course vers le bas", où le travail d'étiquetage est confié à la foule ou externalisé vers des "usines" d'étiquetage spécialisées. Dans les deux cas, il s'agit souvent d'emplois subalternes et mal rémunérés.


De même que les entreprises du commerce de détail sont responsables de l'éthique de l'ensemble de leur chaîne d'approvisionnement, il ne peut y avoir d'IA éthique sans pratiques d'étiquetage éthiques. La déclaration de Montréal distille quelques principes clés qui doivent être respectés si l'on veut que l'IA soit développée de manière responsable. Bien que nombre de ces principes s'appliquent plus facilement aux applications finies de l'IA, la déclaration souligne l'importance du principe d'équité tout au long du cycle de vie de l'IA :


"Le développement industriel [des systèmes d'IA] doit être compatible avec des conditions de travail acceptables à chaque étape de leur cycle de vie [...], y compris le traitement des données."


En tant que signataire de la Déclaration de Montréal, Whale Seeker s'engage à respecter ce principe. Cela signifie que toutes les personnes qui étiquettent des données pour nous reçoivent au moins un salaire décent pour Montréal. C'est aussi l'une des façons dont nous appliquons les valeurs de B Corp à l'IA.


Il y a des raisons pragmatiques de se soucier de l'origine de vos étiquettes, ainsi que des raisons éthiques. S'il est facile de se laisser entraîner dans la course au moins-disant, la réalité est que l'étiquetage des données est souvent loin d'être une partie triviale de l'équation de l'apprentissage automatique, nécessitant dans de nombreux cas une bonne dose d'expertise spécifique au sujet pour produire des résultats utiles. Des données incomplètes peuvent conduire à des performances inexactes ou biaisées lorsque l'algorithme est appliqué dans la nature, avec des répercussions potentiellement graves, en fonction de l'application.


D'un point de vue purement axé sur les résultats, ignorer l'importance de la qualité des données plafonne les performances de l'algorithme d'IA qui en résulte, quel que soit le brio des ingénieurs qui l'entraînent. En d'autres termes : les données sont inutiles, elles sont inutilisables.


Pour Whale Seeker, le verdict sur l'étiquetage des données est clair : il n'y a pas de raccourcis sans sacrifier la qualité. C'est pourquoi nos données détectées manuellement sont toujours étiquetées par un expert titulaire d'une maîtrise ou d'un diplôme supérieur en biologie. Nos étiqueteurs sont également rémunérés pour leur temps, et non à la tâche - une pratique dont il a été démontré qu'elle améliorait la précision de l'étiquetage.


Nous recevons souvent des questions sur l'externalisation de l'étiquetage des données, et nous espérons que cela explique pourquoi nous mettons autant l'accent sur l'expertise interne : tant pour les performances techniques que pour les normes éthiques. Dans notre prochain blog, nous aborderons la configuration technique qui nous permet de tirer le meilleur parti de cette expertise.

bottom of page