Projets

Enrichissement sémantique et gestion sécurisée des documents dématérialisés

Responsable LIMOS : LAFOURCADE Pascal
Coordinateur : Barra
Début du projet : 1 octobre 2016 - Fin du projet : 30 septembre 2019


Après la révolution de l’imprimerie initiée par Gutenberg, le XXIème siècle est celui de la révolution numérique. L’essor des technologies du numériques de manière générale, et celui de l’informatique en particulier, a provoqué une mutation profonde des sociétés modernes qui se traduit par plusieurs aspects telle qu’une mise en réseau à l’échelle mondiale et de nouvelles formes de communication mais aussi, sur les plans industriel et commercial, par une automatisation accrue des processus métier et par une dématérialisation de plus en plus importante des services et des informations.
Aujourd’hui, la plupart des échanges et des transactions sont automatisées et un très grand nombre de services est disponible sous forme électronique. Ce phénomène de dématérialisation s’accompagne par une expansion de la numérisation, en tant que procédé de conversion des informations d’un support quelconque (e.g., papier) en données numériques. A l’heure actuelle, une grande masse de données qui se trouve encore sous forme papier, comme des factures, des bulletins de paies, des analyses médicales, etc, sont scannés et leurs images stockées sur des supports informatiques, souvent archivées auprès d'un «tiers de confiance». Se pose alors des questions essentielles liées à la gestion de ce type de données et à leur intégration dans les applications métiers des entreprises. Très souvent, la forme brute de ces données rend très difficile, voire impossible, la manipulation de leurs contenus de manière automatique
par des programmes informatiques. Par conséquence, de nombreux traitements sur ces données, comme par exemple la vérification des données contenues dans une image de document scanné, sont la plupart du temps réalisés de manière manuelle. Ce projet s’inscrit dans la problématique générale de la dématérialisation des documents et vise à développer des techniques qui permettent de faciliter la gestion et l’exploitation de documents dématérialisés. Le projet est porté par deux laboratoires Universitaires associés au CNRS, le laboratoire d’informatique ( LIMOS) et le laboratoire de psychologie cognitive (LAPSCO), en liaison avec un consortium d’entreprises. Du point de vue scientifique, le projet s’intéresse à deux questions fondamentales qui sont
illustrées dans la figure ci-dessous:

 

● l’enrichissement sémantique des images de documents. Il s’agit ici d’être capable d’analyser une image de document de manière à pouvoir interpréter son contenu et en extraire de la sémantique. Le programme de recherche envisagé s’appuie à la fois sur des approches techniques d’analyse d’images et d’apprentissage mais explorera aussi les aspects cognitifs liés à l’exploitation des métaconnaissances textuelles dans le processus d’enrichissement sémantique,

● le stockage et la gestion de documents numérisés. Il s’agit de s’intéresser à des questions liés à la fiabilité, notamment la sécurité, et à l’efficacité des modèles
physiques de stockage.

 

Du point de vue opérationnel, le projet est structuré autour de trois sujets de recherche complémentaires :

1. Analyse et enrichissement sémantique d’images de documents (LIMOS). L’objectif est de développer des techniques qui permettent de dématérialiser et
d’analyser un ensemble de documents. Ce processus consiste à les « reconnaître » et les traiter (filtrage, données manquantes, données erronées) afin de pouvoir les interpréter (extraction d’information, analyse de données, enrichissement sémantique) en fonction du contexte métier. Les applications de ce travail peuvent concerner la réduction des erreurs de détection et de traitement, l’agrégation interne (à l’entreprise) et externe (Web, réseaux sociaux) de données similaires.

2. Métaconnaissances et connaissances de l’organisation des documents pour leur compréhension (LAPSCO). L'analyse de documents dématérialisés pourrait
permettre d'identifier les informations pertinentes ce qui augmenterait la fiabilité de l'extraction. La pertinence pourrait être identifiée non seulement grâce à des éléments d'analyse de la sémantique des informations (le contenu ... les informations importantes) mais aussi à partir des connaissances sur l'organisation d’un texte, sa structuration etc. (on parle alors de métaconnaissances textuelles).

3. Sécurité de la numérisation et du stockage des documents (LIMOS). La numérisation de documents pose deux défis principaux en termes de sécurité. Tout
d’abord comment assurer l’authentification, l’intégrité et la traçabilité des documents numérisés pendant tout le cycle de vie qui s’étend du processus de numérisation jusqu’à l’archivage sécurisé des documents numérisés. Le second défi concerne le développement de modèles physiques de stockage sécurisés et adaptés aux besoins des usagers. L’objectif de ce projet est d’étudier ces deux questions, en liaison avec les cas d’usage pratiques posés par les entreprises intéressées par ce sujet, et d’apporter des solutions adaptées tant sur le plan théorique que pratique.





Organismes partenaires :

Financeur : None