LUE_SIRIUS-449ffc25

Dans le cadre du programme OLKI porté par Lorraine Université d’Excellence, deux chercheuses ont conjugué leurs disciplines, les sciences de l’information et de la communication et les sciences informatiques, pour mieux traquer les discours de haine sur les réseaux sociaux. Ce projet franco-allemand nommé M-PHASIS a permis des avancées.

Des milliers de commentaires en ligne annotés

Dans un premier temps, l’équipe a réfléchi à la manière de collecter  les données. Un travail épistémologique a été mené afin de définir le discours de haine, sur le plan syntaxique et lexical, par exemple.

« La priorité a ensuite consisté à collecter des données sur les réseaux, autrement dit à récolter des messages de haine. Pour ce projet, nous nous sommes focalisés sur les messages écrits. Plus de 10 000 commentaires ont été recensés sur des médias sociaux comme Twitter et sur des sites de journaux. Et cela en France comme en Allemagne, avec une approche cross-culturelle » explique Irina Illina, maîtresse de conférences à l’IUT Nancy Charlemagne et chercheuse dans l’équipe Multispeech du Loria (CNRS, Inria, Université de Lorraine). Cela a permis de mettre en lumière les différences entre les deux pays. « Les français sont plus friands de Twitter que les allemands, par exemple, ce qui fait qu’en Allemagne ce réseau social colporte bien moins de messages de haine » complète la chercheuse.

Cet exercice est une gageure en soit parce qu’il importe de prendre en considération la réglementation sur le respect de la vie privée mais aussi parce qu’en Europe, les plateformes ont l’obligation légale de supprimer de tels messages dans les 24 heures qui suivent leur mise en ligne.

Il a fallu ensuite annoter ce corpus. «Nous avons défini un protocole d’annotation comprenant une centaine de questions, ce qui nous a permis d’obtenir des résultats d’une grande finesse, un modèle plus performant capable de mieux cerner les discours de haine implicites » résume Irina Illina.

Par définition, les discours de haine implicites sont plus difficiles à saisir que ceux qui sont explicites et identifiables avec des mots-clés.

Ce corpus et l’outil informatique développé, appelé HUMAN (Hierarchical Universal Modular Annotator), sont désormais partagés avec la communauté scientifique et participent à faire avancer la lutte contre les discours de haine sur internet, au bénéfice de toute la société. Les GAFAM (Google, Apple, Facebook, Amazon et Microsoft) qui mènent également des recherches en la matière, ont accès à ces travaux.

 

Vers de nouvelles recherches

Après quatre ans de recherche, le programme M-PHASIS s’est terminé en août dernier. La collaboration entre Irina Illina et Angeliki Monnier, directrice du CREM (Centre de recherche sur les médiations) et professeure en sciences de l’information et de la communication à l’université de Lorraine, se poursuit néanmoins. Parce que la haine ne manque pas de créativité pour diffuser ses messages, les deux chercheuses et leurs équipes souhaitent désormais élargir leurs recherches via une approche multimodale alliant texte et signal audio (utiliser, par exemple, la bande son d’une vidéo et le texte de commentaires sur Youtube). Un projet est déjà déposé en ce sens, toujours dans le cadre du programme OLKi