[SSIS] Data Profiling Task

Aujourd’hui, je vais présenter le composant Data Profiling Task de SSIS.

Ce composant assez méconnu car il ne sert pas vraiment lors de l’intégration de donnée standard, mais il est très utile pour faire de l’analyse de données rapidement et efficacement.

Voici entre autre les différents points intéressants :

  • Les potentiel clés (Basé sur le caractère  unique des colonnes)
  • La longueur des chaines de caractères (maximum/minimum/pourcentage de valeurs avec X caractères)
  • Le pourcentage de valeurs null dans chaque colonne
  • Statistique pour les colonnes numériques (minimum/maximum/moyenne )
  • Analyse de la distribution (nombre de valeurs distinct/Pourcentage de valeurs X)

La création du package est relativement simple, prévoir 2 connexion :une source de données et un fichier de connexion (qui sera au format xml).

SSIS Composant Data Profiling Task

SSIS Composant Data Profiling Task

Une fois le package mit en place, il faut configurer le composant DPT, ce qui est relativement facile, première étape, renseigner la destination :

  • DestinationType : FileConnection
  • Destination : Profiling.xml (Nom de la connexion à mon fichier)
  • OverwriteDestination : True (a voir si vous voulez cumuler pleins de bases/tables)

Nous allons ensuite passer par le Quick Profile pour créer notre première analyse et pour faire simple, je sélectionne Adventure Works et les tables que je veux analyser une par une (pour l’exemple j’ai pris les tables du schéma HumanRessources).

QuickProfile

Quick Profile Selection

Une fois toutes les tables ajoutées, on les retrouve dans la liste du composant (Profile Request). Cette liste est importante car il faut supprimer les précédentes analyses si l’on veut en faire une nouvelle

 

Data Profiling Task - Profile Request

Data Profiling Task – Profile Request

Rapidement, voila ce que ça donne :

  1. Liste des analyses demandées, permet de filtrer la liste 2
  2. Liste de toutes les analyses demandées (en fonction du filtre)
  3. Détail de l’analyse sélectionné

Il ne reste plus qu’a lancer l’exécution du package.

Une fois terminé, il faut ouvrir le fichier généré avec « Data Profile Viewer » (A trouvé dans le menu démarré), ou sous Visual Studio 2010+, il y a un bouton à côté de quick profile qui ouvre directement le Data Profile Viewer.

Data Profile Viewer - Résultats

Data Profile Viewer – Résultats

Rien de particulier à signaler de plus, la navigation est relativement facile et intuitive.

Bonne analyse

 

EDIT : La partie étude des valeurs (Column Value Distribution profile) peut causer des problèmes. J’avoue ne pas avoir eu le temps de creuser mais si vous avez une erreur lors de l’exécution, il se peut que ce soit à cause de cette étude.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *