Accéder au contenu principal

Cours

Nettoyer des données avec PySpark

AvancéNiveau de compétence

Actualisé 02/2026

Apprenez à nettoyer des données avec Apache Spark en Python.

Commencer le cours gratuitement

SparkData Preparation

4 h

16 vidéos

53 Exercices

4,150 XP

33,187

Certificat de formation

Apprécié par des utilisateurs provenant de milliers d'entreprises

Former une équipe ?

Essayez pour les entreprises

Description du cours

Travailler avec des données est complexe — et avec des millions, voire des milliards de lignes, c’est encore plus difficile. Avez-vous reçu du code de traitement de données écrit sur un ordinateur portable avec des données assez propres ? Vous êtes sans doute chargé de faire passer un processus de données basique du prototype à la production. Vous avez peut-être travaillé avec des jeux de données réels, comportant des champs manquants, des formats étranges et des volumes de données beaucoup plus importants. Même si tout cela est nouveau pour vous, ce cours vous apprend ce qu’il faut pour préparer des processus de données en Python avec Apache Spark. Vous apprendrez la terminologie, des méthodes et de bonnes pratiques pour créer une plateforme de traitement de données performante, maintenable et compréhensible.

Prérequis

Intermediate Python Introduction to PySpark

1

Détails sur les DataFrames

Révision des bases des DataFrames et de l’importance du nettoyage des données.

Introduction au nettoyage des données avec Apache Spark

Révision du nettoyage des données

Définir un schéma

Immutabilité et traitement paresseux

Rappel sur l’immutabilité

Utiliser l'exécution paresseuse

Comprendre Parquet

Enregistrer un DataFrame au format Parquet

SQL et Parquet

Commencer le chapitre

2

Manipuler des DataFrames en conditions réelles

Panorama de différentes techniques pour modifier le contenu des DataFrames dans Spark.

Opérations sur les colonnes de DataFrame

Filtrer le contenu d’une colonne avec Python

Question sur le filtrage n°1

Filtrage : question n° 2

Modifier des colonnes de DataFrame

Opérations conditionnelles sur des colonnes de DataFrame

Exemple de when()

When / Otherwise

Fonctions définies par l’utilisateur

Comprendre les fonctions définies par l’utilisateur

Utiliser des fonctions définies par l’utilisateur dans Spark

Partitionnement et exécution paresseuse

Ajouter un champ d’ID

IDs avec différentes partitions

Encore plus d’astuces sur les identifiants

Commencer le chapitre

3

Améliorer les performances

Améliorez les tâches de nettoyage de données en augmentant les performances ou en réduisant les ressources nécessaires.

Mise en cache

Mettre en cache un DataFrame

Retirer un DataFrame du cache

Améliorer les performances d’importation

Optimisation de la taille des fichiers

Performances d’import de fichiers

Configurations de cluster

Lire les configurations de Spark

Écrire des configurations Spark

Améliorations des performances

Jointures normales

Utiliser le broadcasting dans les jointures Spark

Comparer les jointures broadcast et classiques

Commencer le chapitre

4

Traitements complexes et pipelines de données

Apprenez à traiter des données réelles complexes avec Spark et les bases des pipelines.

Introduction aux pipelines de données

Pipeline rapide

Problème de données dans la pipeline

Techniques de gestion des données

Supprimer les lignes commentées

Supprimer les lignes invalides

Découper en colonnes

Aller plus loin dans l’analyse

Validation des données

Valider les lignes via une jointure

Examiner les lignes invalides

Analyse finale et livraison

Analyse des chiens

Nombre par image

Pourcentage de pixels « dog »

Félicitations et prochaines étapes

Commencer le chapitre

Nettoyer des données avec PySpark

Cours
terminé

Obtenez un certificat de réussite

Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolio
Partagez-la sur les réseaux sociaux et dans votre évaluation de performanceS'inscrire maintenant

Rejoignez plus de 19 millions d'utilisateurs et commencez Nettoyer des données avec PySpark dès aujourd'hui !

Apprenez où que vous soyez avec l'application DataCamp

Progressez où que vous soyez grâce à nos cours conçus pour mobile et à nos défis quotidiens de 5 minutes.