CONSEIL D’ETAT
AI-nonyme : OUTIL D’ANONYMISATION AUTOMATISÉE DES DÉCISIONS DE JUSTICE
L’application d’anonymisation des décisions de justice, actuellement en cours de brevetage, a été inventée par Tana Corp afin de répondre aux besoins particuliers d’anonymisation automatisée des informations non structurées
Durée totale du projet : 4 mois
Le coût total du projet s’est élevé à 300 jours.homme.
Détails du projet :
Problématique
En vue de l’application automatisée de la délibération de la CNIL en date du 29 novembre 2001 «portant recommandation sur la diffusion de données personnelles sur internet par les banques de données de jurisprudence», le Conseil d’Etat a souhaité se munir d’un outil informatique d’anonymisation. Cette opération est très complexe et source d’erreur, à cause de la multitude de règles d’anonymisation préconisées pour les informations personnelles «des parties au procès et des témoins», mais également très couteuse en temps de réalisation car l’anonymisation concerne un stock existant de 3 millions de documents auxquels se rajoutent 240 000 autres documents chaque année.
L’exclusivité de l’application est engendrée par plusieurs facteurs :
- Solution innovante et unique : pas de concurrent dans le domaine de l’anonymisation automatisée des informations non structurées sans analyse syntaxique
- L’application ne nécessite pas une structure précise de document pour l’anonymiser, elle traite des documents rédigés en forme libre
- Application dédiée intégralement à l’anonymisation des décisions de justice : non-anonymisation de la formation de jugement ni des avocats
- Respect intégral des règles de la CNIL (Commission Nationale Informatique et Liberté) applicables pour la publication des documents administratifs officiels
- Solution intégrable sans évolution spécifique dans un workflow existant
- Scalabilité : du à son architecture modulable orientée multi-agent, l’application peut être facilement utilisée sur une ferme de plusieurs serveurs pour répondre à une augmentation de la charge de traitement
- Robustesse : système garantissant la reprise automatique des traitements en cas d’incident technique ou applicatif non-prévu
- Vitesse de traitement : entre 10 000 et 200 000 documents traitées pas heure (en fonction du format des fichiers) sur un seul serveur
- Performance : taux de réussite supérieur à 95% de documents correctement anonymisés sans intervention humaine
- Autonomie : système complétement automatisé pouvant fonctionner sans intervention humaine indéfiniment
- Administration centralisée : facilité d’administration des paramètres des règles d’anonymisisation
Définition de la mission
Le projet comporte plusieurs phases :
1/ Une phase de réalisation de l’outil d’anonymisation qui est composé de deux modules applicatifs :
- Le moteur d’anonymisation
- L’interface de curation
Le moteur d’anonymisation prend la forme d’un traitement Batch qui est intégré à une chaine de type EAI existante et qui s’exécutera chaque nuit. L’outil reçoit en entrée une liste des documents sous plusieurs formats (.doc, .txt, etc.) et fournit en sortie une liste des documents anonymisés sous les mêmes formats ou des formats différents (.doc, .txt, xml, etc.). L’outil peut facilement intégrer des nouveaux formats en entrée et sortie. Le moteur n’utilise aucune autre information structurée de type base de données afin d’identifier les patronyme/prénoms/adresse, mais seulement une analyse syntaxique exhaustive de chaque décision.
L’interface de curation permet à différents utilisateurs de contrôler le processus d’anonymisation par la planification et le suivi d’exécution des lots de documents à anonymisés. De plus, elle permet la consultation des résultats d’anonymisation, la vue comparative d’un document dans sa forme initiale et anonymisée aussi que la correction de l’anonymisation d’un document ou la relance de l’anonymisation d’un document ou d’un lot de documents. L’accès à l’interface de curation est restreint aux utilisateurs autorisés et une gestion de profils avancée définit l’accès des utilisateurs aux fonctionnalités et documents des différentes juridictions. En termes d’administration, en plus de la gestion des utilisateurs et profils, l’interface permet l’évolution du moteur d’anonymisation par l’enrichissement des dictionnaires qu’il utilise.
L’outil répond aux objectifs suivants :
- Anonymiser de manière cohérente les documents en entrée (pour éliminer les informations personnelles des personnes, mais garder le sens du document)
- Anonymiser de manière automatisée plus de 90% des documents à traiter
- Permettre la supervision de l’opération d’anonymisation à partir d’une interface dédiée
- Identifier les documents n’ayant pas pu être anonymes, ou sur lesquels un doute subsiste et permettre leur anonymisation manuelle à partir d’une interface dédiée
- Pouvoir comparer les documents dans leur version initiale et anonymisée
- Traiter environ 600 documents en moins de 3 heures
- Offrir un taux de disponibilité proche de 100 %, maintenance comprise
2/ Une phase de déploiement et mise en production et formation
3/ Une phase de TMA (Tierce Maintenance Applicative) qui comporte :
- La maintenance corrective et adaptative
- La réalisation des évolutions par rapport au périmètre initial du projet
Organisation
Pour la réalisation du projet, 7 personnes ont été allouées :
- 1 directeur de projet
- 1 chef de projet, responsable technique et fonctionnel
- 1 architecte technique
- 3 ingénieurs de développement
- 1 graphiste
Ce contrat est exécuté en totalité avec des ressources Tana Corp.
Principales caractéristiques du client
Le Conseil d’État français est une institution publique ancienne qui fut créée par Napoléon Bonaparte lors de la constitution de l’an VIII (Consulat : 1799). Cet organisme siège au Palais-Royal à Paris depuis 1875.
Le Conseil d’État exerce deux missions historiques : conseiller du Gouvernement pour la préparation des projets de loi, décret…, il est aussi le juge administratif suprême qui tranche les litiges relatifs aux actes des administrations. Le Conseil d’État a également pour mission de gérer l’ensemble de la juridiction administrative.
Environ 380 personnes, fonctionnaires et contractuels, aident au bon fonctionnement du Conseil d’État et du reste de la juridiction administrative.
Conduite du projet
Une vraie force d’accompagnement : L’organisation du projet accorde une importance primordiale à la qualité de l’accompagnement, pour faire profiter le client de l’expertise et du savoir-faire capitalisés par Tana Corp sur ses projets de même type.
Force de conseil : Notre solide expérience sur des applications statistiques et des projets au forfait nous a permis d’apporter au client les meilleures pratiques du marché dans ce domaine. Par ailleurs, Tana Corp est force de proposition dans la mise en évidence d’options fonctionnelles susceptibles d’apporter une forte valeur ajoutée fonctionnelle.
Méthodologie proposée pour valider les étapes du projet d’un point de vue client
Reporting projet proposé
Un comité de pilotage régulier et un point projet hebdomadaire nous ont permis de piloter ce projet de longue durée en étroite collaboration avec le client.
Outils choisis pour la conduite du projet
Gestion de projet : MS Project
Suivi des incidents : BugX (basé sur Mantis, http://www.mantisbt.org/)
Suivi de versions et configurations : SubVersion (http://subversion.tigris.org/)
Suivi des incidents : BugX (basé sur Mantis, http://www.mantisbt.org/)
Suivi de versions et configurations : SubVersion (http://subversion.tigris.org/)
Fonctionnalités de la solution
Processus métiers couverts par la solution
- Anonymisation automatique des documents
- Authentification et droits d’accès : gestion des trois profils (Administrateur, Superviseur et Correcteur) avec toute la partie de gestion des droits afférente
- Gestion et suivi des lots de documents : constitution et lancement manuel d’un lot possible
- Visualisation de la liste des résultats avec le statut d’anonymisation (correctement anonymisé, douteux, en erreur), avec filtre et tri intégrés, et avec la possibilité de lancer le module de Correction
- Lecture et action sur une décision avec lecture confortable des 2 documents en parallèle et possibilité d’interagir sur la correction. De plus, l’utilisateur peur facilement à partir de cet écran proposer l’enrichissement des dictionnaires de l’application avec des mots clés, demandes qui devront être acceptées par l’Administrateur du système avant d’être opérationnelles
- Paramétrage et administration des règles d’anonymisation, seuils ainsi que la consultation des statistiques d’anonymisation
Quelles ont été les fonctionnalités les plus difficiles à mettre en œuvre ?
Le moteur d’anonymisation doit répondre à des critères très stricts à la fois qualitatifs que quantitatifs. En effet il doit gérer plus de 600 documents toutes les 3 heures avec un taux d’anonymisation automatique supérieur à 90% tout en intégrant un nombre important de règles d’anonymisation :
La solution intègre également une recherche approximative des patronymes par algorithme de type Wagner et Fisher, afin d’identifier les possibles fautes de frappe. Un doute est levé dans le cas de mots similaires, le seuil restant paramétrable pour l’administrateur du système. Ce système est également corrélé au nombre d’occurrences de chacun des mots afin d’obtenir un niveau différent de doute.
Tana Corp a relevé avec succès ce défi, les résultats de la solution étant largement supérieurs aux attentes du cahier de charges : plus de 95% de réussite avec une fréquence de 30000 documents toutes les 3 heures (soit 50 fois plus rapide que le niveau de performances demandé).
Éléments techniques de plate-forme
Progiciel, logiciels ou langages de développement utilisés
Après analyse de l’ensemble des contraintes, Tana Corp a réalisé un système d’informations basé intégralement sur une solution Microsoft :
- SQL Server 2008 R2
- Microsoft .Net Framework, langages ASP.NET MVC 4, C#
Raisons du choix
- SQLServer 2008 R2 Standard : Serveur de base de données fiable et performant,
- ASP.NET et MVC4 : langages de script permettant le développement des interfaces WEB avec une forte ergonomie,
- Microsoft .Net Framework avec C# : plateforme de développement permettant un excellent rapport coûts/délais/qualité d’implémentation.
Part des développements préexistants utilisés sur lesquels le Fournisseur a capitalisé pour mener à bien le projet
Ce projet a été mené intégralement à partir de zéro.
Difficultés et facteurs clés de succès
- Ergonomie : utilisation quotidienne de l’application dans un contexte de production,
- Diversité de la population des utilisateurs : plus de 500 utilisateurs provenant de plus de 100 organismes répartis dans la France entière.
Planning de mise en oeuvre
Durée de la phase de réalisation : 4 mois
Durée de la phase de mise en production : 2 mois
Durée de la phase de tierce maintenance applicative : 1 ans
Éléments financiers
Le coût de la phase de réalisation et mise en production du projet s’élève à 300 jours.homme.
Principaux bénéfices client
- Retour sur investissement à 6 mois grâce à l’automatisation de l’anonymisation au lieu d’une anonymisation manuelle,
- Performances excellentes, à la fois en vitesse de traitement et en précision,
- Vérification et correction de l’anonymisation à l’aide d’une interface de curation,
- Ergonomie plébiscitée par les utilisateurs,
- Facilité d’administration.