Qu’est ce que la Data, ce mot fourre-tout ?!

Nous entendons beaucoup parler de Data dans les entreprises. Ce terme fourre-tout est très vaste et regroupe un grand nombre de sujets qui ont des besoins et des fonctionnements différents.

La « Data » peut se découper en 3 grands domaines

La Data Gouvernance

Elle s’applique à gérer la vision globale et de la stratégie de gestion des données de l’entreprise.

Ce domaine répond aux questions suivantes :

  • Quelle est la politique de l’entreprise vis à vis des données (éthique, monétisation, RGPD) ?
  • Quel est le catalogue de données ?
  • Comment améliorer les données ?
  • Quelle est la valeur des données (criticité, visibilité interne et externe) ?
  • Qui sont les sachant et les détenteurs de l’information ?

L’outillage de ce domaine est très faible. Des logiciels de cataloguage (DataGalaxy, Google Cloud Data Catalog, Talend Data Catalog, etc.) des données et de suivi des processus sont de précieux accélérateurs.


Le Data Management

C’est le domaine de la data qui est le plus connu et utilisé car il s’organise autour des processus d’acquisition, de stockage, d’interopérabilité et de visualisation des données (je vous invite à lire mon autre article sur la différence entre la l’information et la donnée).

Ce domaine répond aux questions suivantes :

  • Comment stocker une donnée ?
  • Quel système utiliser pour quel type de donnée ?
  • Comment maintenir (créer / modifier / supprimer) une donnée ?
  • Comment « faire parler » les données en les liant les unes aux autres ?

L’outillage de ce domaine est très conséquent car il regroupe l’ensemble des applicatifs de l’entreprise.

Coté stockage il y a les bases de données relationnelles (Oracle, MySQL, etc.) que l’on retrouvera principalement dans le Data Warehouse ou les non relationnelles plutôt utilisées pour le Big Data (ex : MongoDb, Hbase, Amazon S3, Azure, etc.).

Coté acquisition/diffusion des données, outre les ERP et solutions spécifiques il est courant d’utiliser les outils de Master Data Management (gestion des données clients, produits, multimédias) ou ceux de transport de la données (ETL, ESB, Data Hub, etc.).


La Data Visualisation

Ce domaine regroupe les activités d’analyse de la donnée à des fins opérationnels et stratégiques, on appelait il y a peu ce domaine la BI pour Business Intelligence.

Il répond aux questions suivantes :

  • Comment afficher des rapports opérationnels cohérents ?
  • Comment prendre des décisions vis-à-vis des données collectées ?
  • Quels sont les usages / tendances clients ou opérationnels ?

Les outils de ce domaine sont nombreux.

Pour la préparation des données, on associe alors des solutions de stockage de très gros volumes (Amazon S3, Google Query, Microsoft Azure, etc.) à des solutions de préparation de groupement de ces données (Talend, Alteryx, etc.)

Pour la construction de rapport on retrouve des grands noms de la BI comme MicroStrategy, Tableau ou Qlickview. Mais aussi des plateformes plus récentes et innovantes comme SnowFlake ou Dataiku qui associent stockage, préparation et visualisation


Pour résumer voici un petit schéma simplifié :

Les dépendances de la Data