Introducción a Spark SQL en Python

AvanzadoNivel de habilidad

Actualizado 3/2026

Aprende a manipular datos y crear conjuntos de características de machine learning en Spark utilizando SQL en Python.

Descripción del curso

Aprende Spark SQL

Si estás familiarizado con SQL y has oído cosas muy buenas sobre Apache Spark, este curso es para ti. Apache Spark es un marco informático para procesar grandes volúmenes de datos, y Spark SQL es un componente de Apache Spark. Este curso de cuatro horas te enseñará cómo llevar Spark a un nuevo nivel de utilidad mediante el uso de funciones SQL avanzadas, como las funciones de ventana.

A lo largo de cuatro capítulos, utilizarás Spark SQL para analizar datos de series temporales, extraer las palabras más comunes de un documento de texto, crear conjuntos de características a partir de texto en lenguaje natural y utilizarlos para predecir la última palabra de una frase mediante regresión logística.

Descubre los usos de Spark SQL

Comenzarás creando y consultando una tabla SQL en Spark, además de aprender a utilizar las funciones de ventana SQL para realizar sumas acumuladas, diferencias acumuladas y otras operaciones.

A continuación, explorarás cómo utilizar la función de ventana en Spark SQL para el procesamiento del lenguaje natural, incluido el uso de un análisis de ventana móvil para encontrar secuencias de palabras comunes.

En el capítulo 3, aprenderás a utilizar la interfaz de usuario de SQL Spark para almacenar correctamente en caché los DataFrame y las tablas SQL antes de explorar las prácticas recomendadas para el registro en Spark.

Por último, utilizas todas las habilidades aprendidas hasta ahora para cargar y tokenizar el texto sin procesar antes de extraer secuencias de palabras. A continuación, utilizarás la regresión logística para clasificar el texto, utilizando datos de lenguaje natural sin procesar para entrenar un clasificador de texto.

Obtén una introducción completa a Spark SQL.

Al finalizar el curso, tendrás un conocimiento sólido de Spark SQL y comprenderás cómo Spark combina la potencia de la computación distribuida con la facilidad de uso de Python y SQL.

Requisitos previos

Python Toolbox PostgreSQL Summary Stats and Window Functions Introduction to PySpark

PySpark SQL

In this chapter you will learn how to create and query a SQL table in Spark. Spark SQL brings the expressiveness of SQL to Spark. You will also learn how to use SQL window functions in Spark. Window functions perform a calculation across rows that are related to the current row. They greatly simplify achieving results that are difficult to express using only joins and traditional aggregations. We'll use window functions to perform running sums, running differences, and other operations that are challenging to perform in basic SQL.

Descripción del curso

Aprende Spark SQL

Descubre los usos de Spark SQL

Obtén una introducción completa a Spark SQL.

Obtener certificado de logros

¡Únete a .css-nklxlk{color:var(--wf-brand--main, #03EF62);}19 millones de estudiantes y empieza Introducción a Spark SQL en Python hoy mismo!

Crea tu cuenta gratuita

Desarrolla tus habilidades de datos con la aplicación móvil de DataCamp

¡Únete a 19 millones de estudiantes y empieza Introducción a Spark SQL en Python hoy mismo!