Introduction à Spark SQL en Python

AvancéNiveau de compétence

Actualisé 03/2025

Apprenez à manipuler des données et à créer des ensembles de fonctionnalités de machine learning dans Spark à l'aide de SQL en Python.

Créez votre compte gratuit

En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.

Description du cours

Apprendre Spark SQL

Si vous maîtrisez le langage SQL et avez entendu parler des avantages d'Apache Spark, ce cours est fait pour vous. Apache Spark est un framework informatique destiné au traitement des mégadonnées, et Spark SQL est un composant d'Apache Spark. Ce cours de quatre heures vous montrera comment exploiter Spark à un niveau supérieur, en utilisant des fonctionnalités SQL avancées, telles que les fonctions de fenêtre.

Au fil de quatre chapitres, vous utiliserez Spark SQL pour analyser des données chronologiques, extraire les mots les plus courants d'un document texte, créer des ensembles de caractéristiques à partir d'un texte en langage naturel et les utiliser pour prédire le dernier mot d'une phrase à l'aide d'une régression logistique.

Découvrez les utilisations de Spark SQL

Vous commencerez par créer et interroger une table SQL dans Spark, et vous apprendrez à utiliser les fonctions de fenêtre SQL pour effectuer des sommes cumulées, des différences cumulées et d'autres opérations.

Ensuite, vous découvrirez comment utiliser la fonction window dans Spark SQL pour le traitement du langage naturel, notamment en utilisant une analyse de fenêtre mobile pour trouver des séquences de mots courantes.

Dans le chapitre 3, vous apprendrez à utiliser l'interface utilisateur SQL Spark pour mettre correctement en cache les DataFrame et les tableaux SQL avant d'explorer les meilleures pratiques en matière de journalisation dans Spark.

Enfin, vous utilisez toutes les compétences acquises jusqu'à présent pour charger et tokeniser le texte brut avant d'extraire des séquences de mots. Vous utiliserez ensuite la régression logistique pour classer le texte, en utilisant des données brutes en langage naturel pour former un classificateur de texte.

Obtenez une introduction complète à Spark SQL

À la fin du cours, vous aurez acquis une solide compréhension de Spark SQL et saurez comment Spark combine la puissance du calcul distribué avec la facilité d'utilisation de Python et SQL.

Prérequis

Python Toolbox PostgreSQL Summary Stats and Window Functions Introduction to PySpark

PySpark SQL

Description du cours

Apprendre Spark SQL

Découvrez les utilisations de Spark SQL

Obtenez une introduction complète à Spark SQL

Obtenez un certificat de réussite

Rejoignez plus de .css-nklxlk{color:var(--wf-brand--main, #03EF62);}18 millions d'utilisateurs et commencez Introduction à Spark SQL en Python dès aujourd'hui !

Créez votre compte gratuit

Rejoignez plus de 18 millions d'utilisateurs et commencez Introduction à Spark SQL en Python dès aujourd'hui !