Robot de modération

La version initiale de notre solution, Spam Bot Detection, était principalement axée sur la détection de bots en se basant sur les caractéristiques des comptes créés. Cette méthode, bien qu'efficace dans certains cas, présente un grand inconvénient.

Untitled

Cet inconvénient, c’est son incapacité à analyser le contenu publié par les utilisateurs. En se concentrant uniquement sur les patterns de création de comptes et les informations de profil suspects, elle laissait passer les discours haineux et autres contenus inappropriés.

Solution: un robot de modération

En réponse à ces limitations, nous introduisons une nouvelle solution : le robot de modération. Cette nouvelle approche vise à aller au-delà de la simple détection de bots en se concentrant également sur le contenu publié par les utilisateurs.

Voici comment cela fonctionne du point de vue d'un administrateur :

Fonctionnement pour les administrateurs

Depuis le back office de la plateforme, les administrateurs ont désormais la possibilité de définir des règles de modération spécifiques à leur communauté. Ces règles peuvent inclure des critères divers tels que les types de langage à surveiller, les thèmes sensibles, ou encore des comportements inappropriés spécifiques à leur contexte.

Les administrateurs peuvent également sélectionner un seuil de confiance. Ce seuil détermine à partir de quel niveau de certitude les utilisateurs ou les contenus jugés suspects sont bloqués automatiquement. Cela permet de faire un premier tri automatique tout en laissant une marge pour la revue humaine.

Les signalements générés par le robot de modération sont envoyés directement par email aux administrateurs ou aux modérateurs de la plateforme. Ces derniers peuvent alors passer en revue les signalements et décider si le contenu doit être modéré. Si un contenu est effectivement jugé inapproprié, il est alors caché sur la plateforme, assurant ainsi un environnement sain et respectueux pour tous les utilisateurs.

Comparaison

Spam Bot Detection (présent)

✅ Détecte la majorité des robots de spam

✅ Bloque ou signale les robots de spam

🚫 Ne se base pas sur le contenu mais sur le profil utilisateur pour déterminer si c’est un spam bot

🚫 Ne détecte pas les contenus nuisibles

🚫 Ne détecte pas les spam bots les plus modernes qui contournent les méthodes basées sur le remplissage du profil

Robot de modération (à développer)

🤝 Serait compatible avec spam bot detection

✅ Ferait de la modération sur le contenu et non plus seulement sur le remplissage du profil

✅ Prendrait en compte le contexte du contenu

✅ Serait très difficilement outrepassable pour les spammeurs

🚫 Dans sa première version ne pourrait pas détecter les images illicites

Approche technique : utiliser des modèles de langage pour évaluer le contenu

Le fonctionnement technique du robot de modération repose sur l'utilisation avancée de modèles de langage (LLM) à paramètres ouverts. Leur avantage c’est la possibilité d’évaluer du contenu dans son contexte et non pas seulement de manière isolée et/ou sémantique.

Le processus démarre lorsque les utilisateurs publient du contenu sur la plateforme. Ce contenu, ainsi que des informations contextuelles telles que les autres commentaires, le type de fonctionnalité utilisée, ou encore le titre de la concertation, est ensuite envoyé au modèle de détection de contenus illicites ✉️

Pour garantir une évaluation précise et nuancée, plusieurs modèles de langage sont consultés. Chaque modèle analyse le contenu selon les règles de modération définies et émet une évaluation 🧐 Les avis de ces différents modèles sont ensuite agrégés et traités par un quatrième modèle, qui prend la décision finale. En plus de la décision binaire (accepter ou bloquer le contenu), ce modèle fournit également une indication de confiance basée sur la probabilité de sa réponse.

Untitled

Cette nouvelle approche, complémentaire à la précédente (Spam Bot Detection) permet une modération complète en ciblant non seulement les comptes spam, mais aussi tous les types de contenus qui contreviennent aux règles de la plateforme. Cela inclut les discours haineux, et autres comportements nuisibles.