Data Journey - Partie 1 : l'Analyse Descriptive

Toutes les entreprises possèdent des données. Certaines en tirent de l'or, mais d'autres se contentent de les collecter dans l'espoir d'en obtenir un jour de la valeur.
S'il n'y a pas de voie facile pour maximiser la valeur de vos données, il existe au moins une progression claire. Dans cette série d'articles en quatre parties, nous examinerons différents types d'analyses, en commençant par le passé des entreprises.

La première étape du parcours des données est l'analyse descriptive.
Elle commence lorsqu'une entreprise commence à poser des questions sur ce qui s'est passé auparavant. Ce sont souvent des questions qui ont des réponses sommaires comme "Combien de gadgets avons-nous vendus le mois dernier ?" et "Quel était le total des ventes à Paris la dernière fois que le mois a commencé un mardi ?

Poser ces questions n'est qu'un début, et obtenir les réponses peut être étonnamment difficile. A moins que vous ayez la chance de fonctionner à partir d'une seule source, vous devrez probablement combiner plusieurs sources de données différentes. Et même si vous n'avez vraiment qu'une seule source de données, les systèmes existants sont probablement transactionnels et conçus pour travailler avec des enregistrements exacts un par un, et non avec des pans d'enregistrements multiples.

Nous résolvons ce problème en exécutant des tâches ETL (Extract-Transform-Load) par lots. Celles-ci extraient les données de différentes sources, les transforment pour correspondre à un modèle préexistant avant de les charger dans un entrepôt de données. Il existe maintenant une pléthore d'outils pour vous aider à les construire, que ce soit à l'aide d'éditeurs visuels ou même de code.

Quel est l'intérêt de savoir ce qui s'est passé auparavant ? Une entreprise de messagerie dans laquelle je travaillais possédait un système d'analyse descriptive qui nous permettait d'identifier les colis "laids". Il s'agissait de colis aux formes bizarres, trop lourds, trop longs, essentiellement des colis qui ne tenaient pas sur un plateau de tri. Le colis laid nécessitait un traitement manuel, contournant ainsi toute l'automatisation existante pour des raisons d'efficacité.

Bien que cette statistique semble amusante, sa valeur apparaît lorsqu'un compte est renouvelé. Un responsable de compte peut tenir compte de cette statistique lorsqu'il établit les frais et augmenter sérieusement les coûts pour compenser l'impact du tri manuel si la majorité des colis sont moches.

Maintenant que nous avons une idée de ce qui s'est passé auparavant, nous pouvons commencer à nous tourner vers l'avenir. Avant cela, nous devons nous pencher sur le principal inconvénient du traitement par lots, à savoir le fait que notre analyse est toujours dépassée. Pour résoudre ce problème, nous nous pencherons sur l'analyse des flux dans notre prochain article.

Auteur :
Mike Fowler
PRINCIPAL DATA ENGINEER