Cours
Introduction à Spark SQL en Python
AvancéNiveau de compétence
Actualisé 03/2026
SparkData Manipulation4 h15 vidéos52 Exercices4,200 XP20,377Certificat de formation
Créez votre compte gratuitement
Continuer avec GoogleAfficher plus d’optionsou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.
Apprécié par des utilisateurs provenant de milliers d'entreprises
Former une équipe ?
Essayez pour les entreprisesDescription du cours
Apprendre Spark SQL
Si vous maîtrisez le langage SQL et avez entendu parler des avantages d'Apache Spark, ce cours est fait pour vous. Apache Spark est un framework informatique destiné au traitement des mégadonnées, et Spark SQL est un composant d'Apache Spark. Ce cours de quatre heures vous montrera comment exploiter Spark à un niveau supérieur, en utilisant des fonctionnalités SQL avancées, telles que les fonctions de fenêtre.Au fil de quatre chapitres, vous utiliserez Spark SQL pour analyser des données chronologiques, extraire les mots les plus courants d'un document texte, créer des ensembles de caractéristiques à partir d'un texte en langage naturel et les utiliser pour prédire le dernier mot d'une phrase à l'aide d'une régression logistique.
Découvrez les utilisations de Spark SQL
Vous commencerez par créer et interroger une table SQL dans Spark, et vous apprendrez à utiliser les fonctions de fenêtre SQL pour effectuer des sommes cumulées, des différences cumulées et d'autres opérations.Ensuite, vous découvrirez comment utiliser la fonction window dans Spark SQL pour le traitement du langage naturel, notamment en utilisant une analyse de fenêtre mobile pour trouver des séquences de mots courantes.
Dans le chapitre 3, vous apprendrez à utiliser l'interface utilisateur SQL Spark pour mettre correctement en cache les DataFrame et les tableaux SQL avant d'explorer les meilleures pratiques en matière de journalisation dans Spark.
Enfin, vous utilisez toutes les compétences acquises jusqu'à présent pour charger et tokeniser le texte brut avant d'extraire des séquences de mots. Vous utiliserez ensuite la régression logistique pour classer le texte, en utilisant des données brutes en langage naturel pour former un classificateur de texte.
Obtenez une introduction complète à Spark SQL
À la fin du cours, vous aurez acquis une solide compréhension de Spark SQL et saurez comment Spark combine la puissance du calcul distribué avec la facilité d'utilisation de Python et SQL.Prérequis
Python ToolboxPostgreSQL Summary Stats and Window FunctionsIntroduction to PySpark1
PySpark SQL
Dans ce chapitre, vous apprendrez à créer et interroger une table SQL dans Spark. Spark SQL apporte l’expressivité de SQL à Spark. Vous verrez aussi comment utiliser les fonctions de fenêtre SQL dans Spark. Les fonctions de fenêtre effectuent des calculs sur des lignes liées à la ligne courante. Elles simplifient grandement des résultats difficiles à obtenir avec de simples jointures et agrégations classiques. Nous utiliserons des fonctions de fenêtre pour calculer des cumuls progressifs, des différences successives et d’autres opérations qui sont délicates en SQL de base.
2
Utiliser les fonctions de fenêtre SQL pour le traitement du langage naturel
Dans ce chapitre, vous chargerez du texte en langage naturel. Vous appliquerez ensuite une analyse avec fenêtre glissante pour trouver des séquences de mots fréquentes.
3
Mise en cache, journalisation et interface Spark
Dans les chapitres précédents, vous avez appris à exploiter l’expressivité des fonctions de fenêtre en SQL. Cette expressivité rend désormais essentiel de savoir mettre correctement en cache les DataFrames et les tables SQL. Il est aussi important de savoir évaluer votre application. Vous apprendrez à le faire avec l’interface Spark. Vous verrez également une bonne pratique de journalisation dans Spark. Spark SQL apporte un autre outil utile pour optimiser les performances des requêtes : le plan d’exécution. Vous apprendrez à utiliser ce plan pour évaluer la provenance d’un DataFrame.
4
Classification de texte
Les chapitres précédents vous ont donné les outils pour charger du texte brut, le tokeniser et extraire des séquences de mots. C’est déjà très utile pour l’analyse, mais cela l’est aussi pour le Machine Learning. Ce que vous avez appris se concrétise ici avec l’utilisation d’une régression logistique pour classer du texte. À la fin de ce chapitre, vous aurez chargé des données textuelles brutes en langage naturel et les aurez utilisées pour entraîner un classifieur de texte.
Introduction à Spark SQL en Python
Cours terminé
Obtenez un certificat de réussite
Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolioPartagez-la sur les réseaux sociaux et dans votre évaluation de performanceS'inscrire maintenant
Rejoignez plus de 19 millions d'utilisateurs et commencez Introduction à Spark SQL en Python dès aujourd'hui !
Créez votre compte gratuitement
Continuer avec GoogleAfficher plus d’optionsou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.
Apprenez où que vous soyez avec l'application DataCamp
Progressez où que vous soyez grâce à nos cours conçus pour mobile et à nos défis quotidiens de 5 minutes.