Mercredi 23 octobre à 18h30
Découvrez les métiers de la data et comment vous y former

Depuis plus de trois ans, notre objectif est de permettre au plus grand nombre de se former aux métiers de la data, quelque soit votre profil. Cet évènement vous permettra de découvrir nos programmes de formation conçus pour vous permettre de vous reconvertir vers la data ou de monter en compétences !

Je m'inscris
Découvrez les métiers de la data et comment vous y former - Le mercredi 23 octobre à 18h30
Découvrez les métiers de la data et comment vous y former - Le mercredi 23 octobre à 18h30
Découvrez les métiers de la data et comment vous y former - Le mercredi 23 octobre à 18h30
Je m'inscris

Nettoyage de données dans Power BI : Faire son Data Cleaning directement dans Power Bi pour effectuer des analyses fiables

Découvrez les meilleures pratiques pour nettoyer vos données dans Power BI. Apprenez à optimiser vos jeux de données pour des analyses plus précises et efficaces.

Antoine Grignola
Co-fondateur de DataBird
Mis à jour le
22/7/2024

Découvrez notre formation outil dédiée à Power BI.

Découvrir

Dans le monde de l’analyse de données, la qualité des données est primordiale pour obtenir des résultats précis et fiables.

Le nettoyage de données est une étape cruciale dans ce processus, et Power BI offre une gamme d’outils puissants pour vous aider à nettoyer vos jeux de données.

Dans cet article, nous allons explorer les meilleures pratiques et techniques pour le nettoyage de données dans Power BI, afin d’optimiser vos analyses.

Pourquoi le nettoyage de données est crucial dans Power BI

Le nettoyage de données consiste à identifier et corriger les erreurs et incohérences dans un jeu de données

Cela inclut la gestion des valeurs manquantes, la correction des erreurs de format et l’élimination des données aberrantes. 

Un nettoyage de données efficace permet d’améliorer la précision des analyses. Des données propres conduisent à des conclusions plus fiables.

Ensuite, cela optimise la performance des rapports : moins de données incorrectes signifie des rapports plus rapides et plus efficaces

Enfin, cela facilite la prise de décision. Des analyses basées sur des données de haute qualité permettent des décisions plus éclairées.

Étapes essentielles du nettoyage de données Power BI

Identification des données aberrantes

Les données aberrantes peuvent fausser les résultats de vos analyses.

Pour les identifier dans Power BI, vous pouvez utiliser des visualisations comme les graphiques de dispersion et les histogrammes.

Ces outils vous aident à repérer les valeurs qui dévient significativement de la norme.

Exemple concret

Imaginons que vous ayez un jeu de données de ventes contenant des valeurs de prix de produits. Si vous trouvez une valeur de prix beaucoup plus élevée ou beaucoup plus basse que les autres, il est crucial de vérifier et de corriger cette anomalie.

Utilisons le tableau suivant :

Si une valeur de Revenue était de 100 000 pour une seule unité de produit à 10, cela serait une aberration. Vous pouvez utiliser un graphique de dispersion pour visualiser ces écarts.

J’ai, par exemple, affecté un revenu de 100 000 sur la 3ème ligne de mon tableau. 

Voici à quoi ressembleraient deux graphiques : 

On voit bien que le revenu pour le produit avec un prix unitaire de 10 a un revenu aberrant.

En revenant aux valeurs annoncées sur le tableau ci dessus, on voit que nos graphiques ne présentent plus de valeurs aberrantes

Gestion des valeurs manquantes

Les valeurs manquantes peuvent causer des erreurs dans vos analyses. Dans Power BI, vous pouvez utiliser Power Query pour identifier et gérer ces valeurs.

Plusieurs stratégies peuvent être employées, comme remplacer les valeurs manquantes par une moyenne, ce qui est utile pour les données numériques, ou supprimer les lignes ou colonnes contenant des valeurs manquantes si la proportion de données manquantes est élevée.

Exemple concret

Supposons que dans le tableau ci-dessus, la colonne UnitPrice pour la date 2023-01-03 soit manquante

Vous pourriez soit la remplacer par la moyenne des prix unitaires des autres lignes, soit choisir de supprimer cette ligne si cela n'affecte pas significativement votre analyse.

Correction des erreurs de format

Les erreurs de format, comme les dates mal formatées ou les types de données incorrects, peuvent également poser un problème.

Power BI permet de transformer et de corriger ces formats via Power Query.

Exemple concret

Si la date dans le tableau était au format "2023/01/01" et que votre analyse nécessite le format "01-01-2023", vous pouvez utiliser Power Query pour transformer ces dates automatiquement.

Si, par exemple, je mets ma colonne ‘date’ au format décimal, Power Query va déterminer par lui-même qu’une erreur est présente dans cette colonne :

Je vais donc, en cliquant sur la partie supérieure gauche de mon en-tête, et choisir le format adapté ‘Date’.

Outils intégrés de Power BI pour le nettoyage de données

Power Query

Nous l’avons vu juste avant, mais Power Query permet de nettoyer vos données directement dans Power Bi.

Power Query est l’outil principal de Power BI pour le nettoyage et la transformation des données.

Il offre une interface intuitive pour effectuer diverses opérations de nettoyage, comme le filtrage des lignes, la suppression des doublons, et la transformation des colonnes.

Fonctionnalités clés

Filtres avancés

Les filtres avancés permettent de restreindre les données visibles et traitées en appliquant des conditions spécifiques.

  1. Accédez à Power Query : Ouvrez Power BI Desktop, allez dans l'onglet "Accueil" et cliquez sur "Transformer les données" pour ouvrir Power Query Editor.
  1. Sélectionnez votre tableau : Cliquez sur le nom de votre tableau dans le volet de navigation à gauche.
  1. Appliquez un filtre :some text
    • Filtrer les dates : Cliquez sur le bouton de filtre dans l’en-tête de la colonne Date. Vous pouvez choisir d'afficher uniquement les données d'une certaine période.

  • Filtrer par texte : Par exemple, pour la colonne Region, cliquez sur le bouton de filtre et cochez/décochez les régions que vous souhaitez afficher.
  • Filtrer par condition : Vous pouvez choisir "Filtre de texte" ou "Filtre de nombre" pour appliquer des conditions plus complexes comme "supérieur à", "inférieur à", ou "contient".

Exemple : Pour filtrer les lignes où Revenue est supérieur à 3000, cliquez sur le bouton de filtre de la colonne Revenue, puis "Filtre de nombre" et sélectionnez "Est supérieur à" et entrez 3000.

Groupement

Le groupement permet de résumer les données en agrégant des colonnes selon des catégories spécifiques.

  1. Accédez à Power Query : Ouvrez Power BI Desktop, allez dans l'onglet "Accueil" et cliquez sur "Transformer les données" pour ouvrir Power Query Editor.
  1. Sélectionnez votre tableau : Cliquez sur le nom de votre tableau dans le volet de navigation à gauche.
  1. Groupement de données :
  • Sélectionnez la colonne par laquelle vous voulez grouper les données, par exemple Region.
  • Allez dans l’onglet "Transformer" puis cliquez sur "Grouper par"
  • Une boîte de dialogue s’ouvre. Configurez le groupement en sélectionnant la colonne Region et choisissez l’opération d'agrégation (comme Somme, Moyenne, etc.) pour les autres colonnes.

  1. Exemple : Groupez par Region et calculez la somme de Revenue pour chaque région. Notre tableau deviendra ainsi regroupé : 
Fusion et fractionnement

Ces opérations permettent de fusionner plusieurs colonnes en une seule ou de diviser une colonne en plusieurs colonnes.

  1. Accédez à Power Query : Ouvrez Power BI Desktop, allez dans l'onglet "Accueil" et cliquez sur "Transformer les données" pour ouvrir Power Query Editor.
  1. Sélectionnez votre tableau : Cliquez sur le nom de votre tableau dans le volet de navigation à gauche.
  1. Fusionner des colonnes :
  • Sélectionnez les colonnes que vous souhaitez fusionner, par exemple Date et Region.
  • Cliquez avec le bouton droit et sélectionnez "Fusionner les colonnes".
  • Choisissez un séparateur (comme un espace ou une virgule) et donnez un nom à la nouvelle colonne fusionnée.

Exemple : Fusionnez Date et Region avec une virgule comme séparateur. Vous verrez apparaître une nouvelle colonne à droite.

4. Fractionner des colonnes :

  • Sélectionnez la colonne que vous souhaitez fractionner, par exemple une colonne FullName qui contient à la fois le prénom et le nom.
  • Cliquez avec le bouton droit et sélectionnez "Fractionner la colonne" > "Par délimiteur".
  • Choisissez le délimiteur (comme un espace) et spécifiez si vous souhaitez fractionner à chaque occurrence ou à une position spécifique.

Exemple : Fractionnez FullName en FirstName et LastName :

FullName FirstName LastName 

John Doe John Doe 

Jane Smith Jane Smith

Utiliser DAX pour nettoyer des données dans Power Bi

DAX (Data Analysis Expressions) est un langage de formule utilisé dans Power BI pour créer des calculs personnalisés

Bien que principalement utilisé pour les calculs, DAX peut également aider à nettoyer les données en créant des colonnes calculées et des mesures qui corrigent les anomalies.

Exemple concret d’utilisation de DAX

Vous pouvez utiliser DAX pour créer une mesure qui remplace toutes les valeurs nulles d’une colonne par la moyenne des valeurs de cette colonne.

Pour écrire cette formule, il faut faire un clic droit sur ma table Ventes, puis créer une nouvelle mesure

Dans la barre de formule, entrez la formule suivante pour créer une mesure qui remplace les valeurs nulles par la moyenne des valeurs de la colonne UnitPrice.

Ici, comme aucune valeur de ma colonne UnitPrice est nulle, ma nouvelle colonne créée est égale à la colonne UnitPrice.

Techniques avancées de nettoyage de données dans Power BI

Pour les utilisateurs avancés, Power BI propose des techniques de nettoyage plus sophistiquées, comme les scripts R et Python, qui peuvent être intégrés dans Power BI pour des opérations de nettoyage spécifiques.

Exemple concret

Nous allons pouvoir utiliser un script Python pour appliquer un algorithme de détection de valeurs aberrantes sur un jeu de données volumineux.

Pour utiliser un script python dans power bi, il faut d’abord s’assurer que python est bien installé sur votre machine.

Utilisez pip pour installer pandas et numpy si elles ne sont pas déjà installées, via votre terminal de votre machine : pip install pandas numpy.

Dans Power Query, il vous suffira d’ajouter une nouvelle source, et de choisir ‘Script Python’.

Pour répondre à l’exemple, vous pourrez copier ce script qui détecte les valeurs aberrantes en utilisant l'écart interquartile (IQR) : 

import pandas as pd
import numpy as np
# Charger les données depuis Power BI dans un DataFrame pandas
dataframe = dataset
# Détection des valeurs aberrantes en utilisant l'IQR (Interquartile Range)
def detect_outliers(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
    return outliers
# Détecter les valeurs aberrantes dans la colonne 'Revenue'
outliers = detect_outliers(dataframe, 'Revenue')
# Marquer les valeurs aberrantes dans le DataFrame original
dataframe['Outlier'] = np.where(dataframe.index.isin(outliers.index), 'Yes', 'No')
# Retourner le DataFrame avec une nouvelle colonne indiquant les valeurs aberrantes
result = dataframe

Une nouvelle colonne Outlier est ajoutée au DataFrame pour indiquer si une ligne est une valeur aberrante (Yes) ou non (No)

Comment automatiser mon processus de nettoyage de données sur Power Bi ?

Power BI permet d’automatiser le processus de nettoyage de données en utilisant des flux de données et des pipelines de données. Cela garantit que les nouvelles données ajoutées à vos jeux de données sont automatiquement nettoyées selon les règles définies.

Exemple concret d’automatisation

Créer un flux de données dans Power BI qui applique automatiquement des transformations prédéfinies chaque fois qu’un nouveau fichier de données est importé.

Cette fonctionnalité est cependant disponible uniquement sur Power BI Services.

Comment maintenir la qualité des données que j’importe dans Power Bi ? L’importance d’une Data Governance

La documentation est essentielle : documentez toutes les transformations et nettoyages effectués pour assurer la traçabilité

Mettez en place des vérifications régulières pour identifier et corriger les erreurs dès qu’elles apparaissent. 

Assurez-vous que les utilisateurs de Power BI sont formés aux meilleures pratiques de nettoyage de données.

Faites un premier pas dans la data avec nos cours gratuits
Démarrer
Difficulté :
Moyenne