Accéder au contenu principal
AccueilSpark

Cours

Nettoyer des données avec PySpark

AvancéNiveau de compétence
Actualisé 02/2026
Apprenez à nettoyer des données avec Apache Spark en Python.
Commencer le cours gratuitement
SparkData Preparation
4 h
16 vidéos
53 Exercices
4,150 XP
33,187
Certificat de formation

Créez votre compte gratuitement

Continuer avec GoogleAfficher plus d’options

ou


En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.

Apprécié par des utilisateurs provenant de milliers d'entreprises

Group

Former une équipe ?

Essayez pour les entreprises

Description du cours

Travailler avec des données est complexe — et avec des millions, voire des milliards de lignes, c’est encore plus difficile. Avez-vous reçu du code de traitement de données écrit sur un ordinateur portable avec des données assez propres ? Vous êtes sans doute chargé de faire passer un processus de données basique du prototype à la production. Vous avez peut-être travaillé avec des jeux de données réels, comportant des champs manquants, des formats étranges et des volumes de données beaucoup plus importants. Même si tout cela est nouveau pour vous, ce cours vous apprend ce qu’il faut pour préparer des processus de données en Python avec Apache Spark. Vous apprendrez la terminologie, des méthodes et de bonnes pratiques pour créer une plateforme de traitement de données performante, maintenable et compréhensible.

Prérequis

Intermediate PythonIntroduction to PySpark
1

Détails sur les DataFrames

Révision des bases des DataFrames et de l’importance du nettoyage des données.
Commencer le chapitre
2

Manipuler des DataFrames en conditions réelles

Panorama de différentes techniques pour modifier le contenu des DataFrames dans Spark.
Commencer le chapitre
Nettoyer des données avec PySpark
Cours
terminé

Obtenez un certificat de réussite

Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolio
Partagez-la sur les réseaux sociaux et dans votre évaluation de performance
S'inscrire maintenant

Rejoignez plus de 19 millions d'utilisateurs et commencez Nettoyer des données avec PySpark dès aujourd'hui !

Créez votre compte gratuitement

Continuer avec GoogleAfficher plus d’options

ou


En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.

Apprenez où que vous soyez avec l'application DataCamp

Progressez où que vous soyez grâce à nos cours conçus pour mobile et à nos défis quotidiens de 5 minutes.