Cours
Introduction à PySpark
IntermédiaireNiveau de compétence
Actualisé 01/2026SparkData Engineering4 h11 vidéos36 Exercices2,850 XP24,587Certificat de réussite.
Créez votre compte gratuit
ou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.Apprécié par des utilisateurs provenant de milliers d'entreprises
Former 2 personnes ou plus ?
Essayez DataCamp for BusinessDescription du cours
Pourquoi choisir Spark ? Pourquoi pas ?
Découvrez la rapidité et l'évolutivité de Spark, le puissant framework conçu pour traiter le big data. Grâce à des cours interactifs et des exercices pratiques, vous découvrirez comment le traitement en mémoire de Spark lui confère un avantage par rapport aux frameworks traditionnels tels que Hadoop. Vous commencerez par configurer des sessions Spark et vous plongerez dans les composants essentiels tels que les ensembles de données distribués résilients (RDD) et les DataFrame. Apprenez à filtrer, regrouper et joindre des ensembles de données avec aisance tout en travaillant sur des exemples concrets.Améliorez vos compétences en Python et SQL pour le Big Data
Découvrez comment exploiter PySpark SQL pour interroger et gérer des données à l'aide d'une syntaxe SQL familière. Apprenez à gérer les schémas, les types de données complexes et les fonctions définies par l'utilisateur (UDF), tout en développant vos compétences en matière de mise en cache et d'optimisation des performances pour les systèmes distribués.Élaborez les fondements de votre stratégie Big Data
À la fin de ce cours, vous serez en mesure de manipuler, interroger et traiter des données volumineuses à l'aide de PySpark. Grâce à ces compétences fondamentales, vous serez prêt à explorer des sujets avancés tels que l'apprentissage automatique et l'analyse des mégadonnées.Prérequis
Introduction to SQLData Manipulation with pandas1
Introduction à Apache Spark et PySpark
Une introduction générale à PySpark et au calcul distribué. Cette section présente PySpark, les DataFrames PySpark et les RDD.
2
PySpark en Python
Poursuite sur les DataFrames et les types de données complexes. Cette section développe les possibilités des DataFrames dans PySpark et introduit quelques concepts de Spark SQL.
3
Introduction à PySpark SQL
Approfondissez l’usage de Spark SQL et PySpark pour un traitement des données à l’échelle, en combinant la simplicité de SQL et la puissance du calcul distribué de PySpark pour gérer efficacement de grands ensembles de données.
Introduction à PySpark
Cours terminé
Obtenez un certificat de réussite
Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolioPartagez-la sur les réseaux sociaux et dans votre évaluation de performance
Inclus avecPremium or Teams
S'inscrire MaintenantRejoignez plus de 19 millions d'utilisateurs et commencez Introduction à PySpark dès aujourd'hui !
Créez votre compte gratuit
ou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.