Séminaire


Date : 19 mai 2016 14:00 - Salle :Amphi Garcia

Analyse OLAP des données complexes


Kaïs KHROUF - laboratoire MIR@CL, Université de Sfax, Tunisie

Les systèmes OLAP (On-Line Analytical Processing) ont été proposés pour améliorer le processus de prise de décision par l’analyse de grandes masses de données. Ces données peuvent être issues des sources opérationnelles des entreprises, ou aussi collectées à partir des sources disséminées et hétérogènes (Internet, Workflow, bibliothèques numériques, réseaux sociaux, etc.). Les décideurs souhaitent disposer d’outils leur permettant d’extraire l’information pertinente, à partir de ces données complexes. Dans ce contexte, nous proposons un nouveau modèle multidimensionnel dédié à l’OLAP de documents XML (appartenant à une même collection). Ce modèle, dit en diamant, est organisé autour d’une dimension centrale qui traduit la sémantique du contenu textuel. Nous avons défini un ensemble de règles heuristiques en vue de la génération quasi-automatique de modèles en diamant. La détermination de la dimension sémantique se base sur une approche d’annotation automatique des différents granules d’un document XML permettant ainsi d’inférer une structure sémantique par document. Dans nos travaux, nous considérons que la structure sémantique est une structure superposée à la structure logique d’un document XML et qui décrit la sémantique du contenu (en particulier de ses éléments textuels). Afin de permettre l’analyse OLAP de documents XML hétérogènes (structure et contenu), nous proposons un autre modèle multidimensionnel intitulé modèle en toile d’araignée. Ce modèle se diffère des autres modèles proposés dans la littérature par les spécificités suivantes : Contrainte d’exclusion entre les dimensions, présence de paramètres réflexives, autorisation de dimension dupliquée et de dimensions corrélées. Dans le but de profiter des données et informations issues des réseaux sociaux (Twitter), nous proposons un modèle multidimensionnel générique réutilisable (c’est-à-dire non dédié à un besoin analytique spécifique) et adapté au caractère dynamique des données des tweets. Mots-clés : Analyse OLAP, documents XML, structuration sémantique, réseaux sociaux.