Ir al contenido principal

Predicción del ganador del Mundial 2026: una guía de MLOps

Descubre cómo una canalización MLOps de extremo a extremo predice los resultados del Mundial 2026, desde el reentrenamiento automático y DVC hasta una simulación de Monte Carlo de 10.000 ejecuciones del cuadro.
Actualizado 17 jun 2026  · 15 min leer

Predecir el fútbol es difícil. Es un deporte de pocos goles en el que un disparo desviado puede cambiar un resultado, y una buena parte de cualquier partido depende de la suerte. El fútbol de selecciones lo es aún más: los equipos nacionales juegan solo unos pocos partidos competitivos al año, así que hay muchos menos datos de los que aprender que en las ligas de clubes.

Y por si fuera poco, la FIFA nos lo ha puesto aún más complicado para el Mundial de este año. El Mundial ampliado a 48 selecciones introduce un formato nuevo en el que pasan las dos primeras de cada uno de los doce grupos, junto con ocho de las doce mejores terceras, lo que hace que el destino en la fase de grupos sea impredecible. Como me gustan los retos (y el fútbol), eso es precisamente lo que me propuse predecir.

Este artículo es la continuación de mi proyecto de predicción de la EURO 2024, reconstruido casi desde cero. La vez anterior trabajé íntegramente en cuadernos de Jupyter y predije un único marcador más probable por partido. Esta vez, he creado una canalización de MLOps de extremo a extremo que ingiere resultados recientes, se reentrena sola y ejecuta una simulación de Monte Carlo de todo el torneo 10.000 veces, convirtiendo las predicciones a nivel de partido en probabilidades de hasta dónde llega cada equipo.

En este artículo te guiaré por el proyecto a alto nivel: los datos y las variables, las prácticas de MLOps que garantizan la reproducibilidad, la arquitectura de la canalización y qué modelo resulta predecir mejor el fútbol de selecciones. Puedes consultar el código completo en el repositorio del proyecto. Y, por supuesto, te diré a quién cree el modelo que ganará. (Spoiler: le gustan España y Argentina con alrededor de un 16% cada una, pero lo interesante es cómo llega a esa conclusión).

Si esto te ha puesto en modo Mundial, te recomiendo ver las grabaciones de nuestras sesiones de la Data & AI World Cup o participar en nuestra competición de Predicción del Mundial 2026. La persona ganadora no solo se lleva una camiseta oficial del Mundial, sino también una suscripción de 3 meses a Claude Enterprise. Sigue al día la clasificación en directo.

Predicción del Mundial 2026

En pocas palabras

  • Es una canalización MLOps de extremo a extremo que predice el Mundial 2026, obtiene resultados internacionales recientes y se reentrena automáticamente en Google Cloud, cada dos horas durante el torneo.
  • Los datos de API-Football y las valoraciones Elo se procesan con una arquitectura medallón Bronze-Silver-Gold y se versionan con DVC para una reproducibilidad total.
  • Se compararon diez modelos de cinco familias en un holdout de 347 partidos; XGBoost ganó por poco, los cinco primeros quedaron casi empatados, y la diferencia Elo entre equipos hace la mayor parte del trabajo predictivo.
  • Una simulación de Monte Carlo juega el torneo completo 10.000 veces, convirtiendo las predicciones de goles por partido en las probabilidades de avance y victoria de cada selección.
  • A 10 de junio de 2026, las favoritas del modelo son España y Argentina, con aproximadamente un 16% cada una. Puedes seguir las predicciones en directo en un dashboard de Streamlit que se actualiza cada dos horas.

Desarrolla hoy tus habilidades MLOps

Empieza desde cero y adquiere habilidades MLOps para desarrollar tu carrera profesional.
Empieza a aprender gratis

Los datos detrás de las predicciones

Una predicción solo es tan buena como lo que entra en ella, así que merece la pena empezar por la materia prima. El modelo aprende de dos fuentes de datos en vivo y las convierte en una única tabla ordenada de variables.

De dónde salen los datos

Todo se construye a partir de dos sitios. API-Football aporta el calendario y las estadísticas por partido: quién jugó contra quién, cuándo, dónde y cómo terminó. eloratings.net aporta las valoraciones Elo de cada selección nacional.

Una valoración Elo es un único número que refleja la fuerza de un equipo. Cada equipo se sitúa en algún punto de la escala y, tras cada partido, la valoración se actualiza: si ganas a un rival más fuerte, subes mucho; si pierdes con uno más débil, bajas en picado. La idea viene del ajedrez y encaja muy bien con el fútbol. Si quieres la intuición completa, este artículo anterior de DataCamp lo explica en el contexto del Mundial 2022.

Juntas, las dos fuentes dan un dataset Gold de unas 6.900 selecciones internacionales desde 2018 con el que aprender.

Qué predice el modelo

Aquí llega la primera decisión de diseño importante. En lugar de predecir directamente el resultado como victoria, empate o derrota, el modelo predice algo más granular: el número de goles que marca cada equipo en un partido. Los conteos de goles en fútbol siguen, con bastante aproximación, una distribución de Poisson, la forma estándar de modelar cuántas veces ocurre un evento relativamente raro en una ventana de tiempo fija.

Predecir goles en lugar de resultados es lo que permite todo lo que viene después. Una vez que el modelo puede producir un marcador plausible para cualquier duelo, las preguntas que realmente interesan —quién sale del grupo y quién levanta el trofeo— pueden responderse simulando esos marcadores miles de veces.

Las variables que importan

Cada partido se describe con un conjunto pequeño y muy seleccionado de variables:

  • Diferencia Elo: la brecha de valoración entre los dos equipos. Es, con mucho, la variable más importante del modelo, con una importancia unas dos órdenes de magnitud por encima de la siguiente. Encaja con la intuición: la diferencia de fuerza entre los dos lados te dice más sobre el resultado probable que casi cualquier otra cosa.
  • Suma Elo: las dos valoraciones sumadas, un proxy de la calidad global del partido. La diferencia por sí sola no puede distinguir Argentina contra España de San Marino contra Andorra, dos duelos igualados en niveles completamente distintos, y la suma recupera esa información.
  • Cambio Elo reciente (últimos 5 partidos): cuánto ha variado la valoración de cada equipo últimamente. Captura el estado de forma teniendo ya en cuenta la fuerza de los rivales.
  • Goles a favor y en contra recientes (últimos 5 partidos): producción ofensiva y defensiva reciente en términos absolutos, calculada para cada equipo.
  • Contexto del partido: el nivel de la competición (un partido de Mundial pesa distinto a una clasificación o a la Nations League), si es a eliminatoria directa y si se juega en campo neutral.

Cada variable es estrictamente segura frente a fugas de información: solo usa datos disponibles antes del inicio del partido. Suena obvio, pero es una de las formas más fáciles de construir por accidente un modelo que parece brillante en pruebas y se cae en el mundo real.

Una idea que se quedó fuera: había planeado un conjunto de variables de "estilo de juego" construidas agrupando equipos a partir de sus estadísticas en juego, un paso de aprendizaje no supervisado. En la práctica, los equipos no se separaban en grupos con sentido, así que, en lugar de meter ruido al modelo, lo descarté. Los resultados negativos también cuentan.

Mantener los datos reproducibles

Con datos que llegan de dos fuentes de forma continua, el camino desde los ficheros en bruto hasta las variables listas para el modelo debe ser idéntico cada vez. Eso es lo que aporta una arquitectura medallón. Organiza los datos en tres capas:

  • Bronze: los datos en bruto, tal como llegan, sin tocar.
  • Silver: limpios y estandarizados. Aquí hago el mapeo de nombres de selecciones entre ambas fuentes (rara vez coinciden en las grafías), valido el esquema, uno las valoraciones Elo a los registros de partidos y trato los datos ausentes o con formato incorrecto.
  • Gold: la capa de modelado, una fila ordenada por partido con cada variable calculada y lista para entrenar.

Cada capa alimenta a la siguiente, así que cuando algo no cuadra puedo rastrearlo hacia atrás paso a paso en lugar de deshacerlo todo de golpe. Para hacer reproducible todo el recorrido, utilizo DVC (Data Version Control). Cuando entran resultados nuevos, un único dvc repro reconstruye Silver y Gold desde Bronze, rehaciendo solo los pasos cuyos inputs han cambiado, y versiona los datasets resultantes para poder recuperar exactamente cualquier estado anterior.

Elegir el mejor modelo

Predecir goles es un problema muy estudiado y no hay una herramienta única y obvia. Así que, en lugar de casarme con un enfoque de antemano, construí diez y los dejé competir.

Los aspirantes

Los diez modelos cubren cinco familias más una línea base sencilla. No necesitas conocer las tripas de cada uno; la idea es que parten de supuestos muy distintos sobre cómo se generan los goles.

Familia Modelos La idea central
Línea base Poisson de tasa media Asume que cada equipo simplemente anota un promedio global a largo plazo, ignorando todas las variables. Un suelo que los demás deben superar.
Estadísticos Poisson bivariante, binomial negativa Modelan directamente los dos conteos de goles con distribuciones diseñadas para eventos contables.
Bayesianos Poisson bayesiano (MCMC) La misma idea de conteo, pero devuelve un rango completo de incertidumbre en torno a cada estimación. Mucho más costoso de calcular: aproximadamente 100 veces más lento de ajustar que el resto.
Series temporales SARIMAX Trata los resultados de un equipo como una secuencia en el tiempo y proyecta esa secuencia hacia delante.
Machine learning Ridge, Random Forest, XGBoost Aprenden patrones directamente de las variables sin imponer una ecuación fija.
Deep learning LSTM, CNN 1D Redes neuronales que buscan patrones secuenciales y locales en los datos.

Cómo se evaluaron

Con diez candidatas, elegir a ojo era inviable. En su lugar, cada modelo pasa por tres etapas, y el código decide si avanza. A esto nos referimos con despliegue basado en código: los modelos se promocionan de un entorno a otro mediante comprobaciones automáticas en lugar de ajustes manuales, de modo que toda la selección se mantiene reproducible y fácil de auditar.

  • Experimentación. Cada modelo se entrena solo con partidos internacionales disputados antes del Mundial 2022. No todos esos partidos pesan igual: los más recientes y los de mayor importancia reciben más peso (ponderación por decaimiento temporal e importancia del partido), así que un resultado competitivo reciente influye más que un amistoso antiguo. Luego se ajustan los hiperparámetros de cada modelo para minimizar la log-verosimilitud negativa de Poisson (NLL) usando validación cruzada. La NLL no es más que una puntuación de lo bien que las tasas de gol predichas coinciden con los goles que acabaron marcando los equipos, donde cuanto más bajo, mejor. El resultado es la mejor versión ajustada de cada modelo.
  • Aseguramiento de calidad. Esos modelos ajustados se prueban en partidos que nunca han visto: el Mundial 2022 más seis torneos importantes celebrados desde entonces (la EURO, dos Copas de África, la Copa América, la Copa de Asia y la Gold Cup), 347 partidos en total. Aquí, la métrica cambia a la ranked probability score (RPS), que mide la calidad de un pronóstico probabilístico cuando los resultados tienen un orden natural —derrota, empate, victoria— y premia la confianza en la dirección correcta. Otra vez, más bajo es mejor. El modelo más sólido aquí se convierte en el retador. La RPS es la vara adecuada porque el objetivo real es predecir hasta dónde llegan los equipos, no solo los totales de goles.
  • Despliegue. El retador se compara con el campeón vigente. Si gana, se promociona y se reajusta con todos los partidos disponibles, para llegar al torneo habiendo aprendido de todos los datos.

Qué ganó

Entonces, ¿qué enfoque salió vencedor? Este es el ranking completo del holdout, medido por RPS (cuanto más bajo, mejor):

Modelo RPS en holdout
XGBoost 0.18289
Poisson bayesiano 0.18316
Binomial negativa 0.18373
Poisson bivariante 0.18389
Random Forest 0.18392
SARIMAX 0.18583
Ridge 0.18813
LSTM 0.19299
CNN 1D 0.20916
Poisson de tasa media (línea base) 0.22872

De estos resultados destacan cuatro cosas:

  • Ganó XGBoost, pero por la mínima. Los cinco primeros modelos (XGBoost, Poisson bayesiano, binomial negativa, Poisson bivariante y Random Forest) quedaron a unos 0,0011 de RPS entre sí. Cuando cinco enfoques tan distintos quedan tan cerca, suele significar que el techo lo marcan los datos y las variables, no el modelo. Aquí, la diferencia Elo hace tanto trabajo que la elección de modelo apenas mueve la aguja.
  • Una variable domina. La diferencia Elo fue, con mucha diferencia, el predictor más importante, aproximadamente cien veces más influyente que la siguiente variable. Tranquiliza más que sorprende: en un único partido, la brecha de fuerza entre dos equipos es casi toda la historia.
  • El deep learning quedó el último, salvo la línea base. La CNN 1D y la LSTM fueron los modelos más flojos aparte del ingenuo de referencia. Con solo unos 7.000 partidos de los que aprender, no hay suficientes datos para alimentar redes con tantos parámetros; los métodos clásicos se defienden mucho mejor con datasets pequeños y estructurados.
  • Sin señales de sobreajuste en los modelos clásicos. Normalmente, un modelo rinde un poco peor en datos no vistos que en entrenamiento. Aquí, casi todos (salvo la LSTM) puntuaron mejor en los torneos reservados que en validación cruzada. La razón probable es que el fútbol de torneo es más predecible que el calendario internacional cotidiano: más en juego, equipos más fuertes y conocidos y sedes neutrales reducen parte del azar.

Elo difference dominates football predictionPara el torneo en directo no ejecuto los diez. Mantengo una lista reducida: la línea base de tasa media como punto de referencia, más los tres mejores. XGBoost y Poisson bayesiano ocupan los dos primeros puestos con claridad.

El tercer lugar es prácticamente un empate: la binomial negativa y la Poisson bivariante quedan a 0,0002 de RPS una de otra y se intercambian según la semilla aleatoria, así que, entre dos modelos estadísticamente indistinguibles, me quedé con la Poisson bivariante, cuya formulación tiene más respaldo en la literatura de predicción futbolística (Karlis y Ntzoufras, 2004).

Así queda un plantel con XGBoost (machine learning), Poisson bivariante (estadística clásica) y Poisson bayesiano (inferencia bayesiana). En la siguiente sección verás cómo se ejecutan, se reentrenan y convierten predicciones de un solo partido en un pronóstico de todo el torneo.

Llevarlo a producción

Un modelo que vive en un notebook solo es útil mientras estás delante. Para predecir partidos durante un mes de torneo, todo debe funcionar solo: traer resultados nuevos, reentrenar, re-simular y refrescar el pronóstico sin que nadie lo toque. Ese es el trabajo de la canalización.

La canalización bianual en GCP

Todo el proyecto se ejecuta como un único job programado en Google Cloud Run. Antes del torneo, se despierta una vez al día; desde el partido inaugural del 11 de junio, corre cada dos horas. Cada ejecución sigue el mismo ciclo:

  • Comprobar si hay datos nuevos. Si no ha terminado ningún partido desde la última ejecución, no hay nada que hacer y el job sale pronto.
  • Ingestar y reconstruir. Cuando entran resultados nuevos, se tiran de las fuentes y un único dvc repro reconstruye las capas Silver y Gold para que las variables estén al día.
  • Reentrenar, predecir, simular. Se actualizan los modelos del plantel (más sobre cómo en un momento), se predicen todos los duelos futuros y se simula el torneo completo.
  • Puntuar. Una vez que se decide un partido, se puntúan las predicciones que se hicieron para él, lo que alimenta la monitorización descrita más abajo.

Como cada paso lo dispara código en un calendario, no hay que pulsar botones manualmente durante el torneo. Entran resultados nuevos, sale el pronóstico actualizado.

Dos modos: congelado vs. por ronda

Aquí es donde el proyecto hace también de experimento. Durante el torneo, el plantel corre en dos modos en paralelo, y la diferencia entre ellos es la pregunta que quiero responder con los datos: ¿reentrenar a medida que avanza el torneo mejora las predicciones?

  • Congelado. Los modelos quedan bloqueados en el momento en que arranca el torneo y no se reentrenan. Siguen reaccionando a los resultados, porque cada simulación parte del cuadro actualizado, pero los parámetros del modelo no cambian.
  • Por ronda. Los hiperparámetros (la configuración de alto nivel) se mantienen fijos, pero los parámetros que el modelo aprende se reajustan con todos los datos disponibles después de cada jornada de grupos y de cada ronda eliminatoria, así que los modelos siguen aprendiendo del torneo en tiempo real.

Ejecutar ambos en paralelo me permite compararlos en dos frentes cuando acabe: precisión predictiva bruta y la velocidad a la que se resuelve la incertidumbre de cada uno a medida que se estrecha el cuadro. Si gana el modo por ronda, el reentrenamiento regular se justifica; si el congelado se mantiene, quizá no compense la maquinaria extra.

De predicciones a torneo: la simulación de Monte Carlo

Predecir un solo partido es una cosa. Convertirlo en "cuál es la probabilidad de que cada equipo gane el torneo" es donde entra la simulación de Monte Carlo.

Primero, la inferencia. En lugar de predecir solo los partidos ya conocidos, el modelo predice todos los posibles duelos entre las 48 selecciones. Suena excesivo, pero en un torneo cualquier equipo puede encontrarse con cualquier otro en las eliminatorias, así que hay que tener una predicción lista para cada emparejamiento.

Después, hay que codificar las reglas, y el formato de 2026 lo complica especialmente. En los 12 grupos, pasan automáticamente las dos primeras, pero también las ocho mejores terceras, y en qué plaza del cuadro cae cada una de esas ocho depende de qué grupos procedan.

Hay 495 formas de elegir ocho grupos que aportan terceras de doce (doce sobre ocho), y cada una produce un set distinto de emparejamientos en dieciseisavos. No hay una fórmula limpia: la FIFA simplemente publica una tabla. Así que yo (o mejor dicho, mi muy capaz colega Cursor) codifiqué a mano las 495 combinaciones en un mapeo, usando la tabla oficial como fuente.

"best_third_mappings": {
  "EFGHIJKL": {
    "74": "3F",
    "77": "3G",
    "79": "3E",
    "80": "3K",
    "81": "3I",
    "82": "3H",
    "85": "3J",
    "87": "3L"
  }, 
  "DFGHIJKL": ...

Cada clave, como EFGHIJKL, enumera qué ocho grupos aportaron las terceras clasificadas, y los valores colocan a cada uno de esos equipos (3E, 3F, etc.) en un número de partido concreto de dieciseisavos. Ese es un caso; el mapeo completo lo repite 495 veces, una por combinación.

Las tres anfitrionas (Estados Unidos, Canadá y México) requieren un tratamiento adicional. Cuando una anfitriona juega un partido disputado en su país, la simulación aplica un ajuste por ventaja de local para ese encuentro, mientras que el resto del torneo se trata como campo neutral.

Con las predicciones y las reglas listas, la simulación ejecuta el torneo completo 10.000 veces. En cada ejecución, sigue este procedimiento:

  1. Extraer un marcador para cada partido muestreando goles locales y visitantes de las distribuciones predichas por el modelo
  2. Jugar la fase de grupos con las reglas reales de puntos y desempates
  3. Resolver la tabla de mejores terceras
  4. Rellenar el cuadro eliminatorio con los mapeos anteriores
  5. Jugar hasta un único campeón.

A lo largo de 10.000 torneos simulados, la proporción de veces que un equipo llega a la final o levanta el trofeo se convierte en su probabilidad. Una ejecución es una conjetura; diez mil son un pronóstico.

Todo trazado con MLflow

Cada ejecución descrita hasta ahora, en ambos modos, se registra en MLflow (alojado en DagsHub). El seguimiento de experimentos significa registrar de forma sistemática los inputs, la configuración, los resultados y las salidas de cada ejecución, para poder compararlas o reproducirlas exactamente. Vale la pena destacar algunas de las cosas que captura:

  • Reproducibilidad. La simulación usa una semilla aleatoria fija derivada de la ronda del torneo, y la misma semilla se comparte entre los modos congelado y por ronda. Eso significa que cualquier diferencia entre ambos proviene de los modelos en sí, no de la suerte del muestreo dentro de la simulación. Cada ejecución también registra el snapshot exacto de datos que vio (el número de filas Gold y una marca temporal), para poder rastrear siempre los resultados hasta sus inputs.
  • El experimento. Cada ejecución se etiqueta con su modo (congelado o por ronda) y su fase en el ciclo de vida, desde experimental y QA hasta inferencia en vivo y reajuste, reflejando el flujo de promoción de la sección anterior.
  • Comparación. La RPS del holdout se registra como métrica de selección, junto con una referencia a la ejecución campeona actual para la trazabilidad. También se anota el tiempo de ajuste, donde queda negro sobre blanco el entrenamiento aproximadamente 100 veces más lento del modelo bayesiano.

Los modelos entrenados y los propios ficheros de predicción (las probabilidades del torneo, las clasificaciones de grupos y los pronósticos de partidos) se guardan como artefactos de ejecución, y esos ficheros son exactamente lo que lee el dashboard en vivo. Así se cierra el círculo: de los resultados en bruto, pasando por entrenamiento y simulación, a los números que ves online.

Monitorizar el drift

La última pieza se ejecuta cuando se cierran los partidos. A medida que llegan los resultados reales, se puntúan las predicciones hechas para ellos y se comparan con la sencilla línea base de tasa media. Si los modelos completos empiezan a perder terreno frente a un modelo que no sabe nada de los equipos, es una señal de alerta de drift: los patrones aprendidos antes del torneo pueden no corresponderse ya con lo que sucede en el campo.

Vigilar esto es práctica habitual en cualquier sistema con predicciones en vivo, y puedes leer más sobre cómo se detecta en esta guía sobre data drift y model drift.

Entonces, ¿quién gana el Mundial?

Después de toda esta maquinaria, aquí tienes para qué sirve.

Las favoritas

A 10 de junio de 2026, víspera del partido inaugural, el veredicto del modelo es claro en la cima y apretado justo detrás. España y Argentina lideran el grupo, cada una con alrededor de un 16% de opciones de levantar el trofeo. Que salgan arriba las vigentes campeonas del mundo (Argentina) y de Europa (España) es una buena señal de que el modelo pisa tierra.

Tras ellas llega un grupo perseguidor muy igualado: Francia, Inglaterra, Brasil y Colombia completan el bloque de candidatas más probables. Son cifras en vivo y se moverán en cuanto empiecen a llegar resultados reales, así que tómalas como una foto del 10 de junio, no como una profecía fija. El dashboard muestra siempre los números actuales, con un retraso máximo de dos horas.

El dashboard en vivo

Hablando de eso: todos los números de este artículo salen de una app de Streamlit en vivo que se actualiza automáticamente a medida que corre la canalización. Puedes abrirla en wc2026-predictions.streamlit.app y seguir el torneo. Tiene cuatro vistas principales:

  • Visión general del torneo: hasta dónde se espera que llegue cada equipo, de un vistazo.
  • Clasificación de grupos: para cada grupo, la probabilidad de cada equipo de terminar primero, segundo, tercero (separando tercer puesto con pase frente a tercer puesto eliminado, gracias a la regla de mejores terceras) o cuarto.
  • Predicciones de partidos: para cada encuentro de grupos, la probabilidad de victoria local, empate o victoria visitante, junto con el cuadro eliminatorio más probable.
  • Emparejamientos eliminatorios más comunes: los cruces que la simulación genera con más frecuencia.

Un detalle a tener en cuenta en la vista de partidos: un par de equipos aparecen a la vez en dos posibles plazas de dieciseisavos. No es un bug. Ocurre cuando un grupo está tan igualado que el modelo no puede determinar con confianza qué puesto clasificatorio ocupará un equipo. Combinado con la incertidumbre de mejores terceras, los dos desenlaces llevan a plazas distintas en el cuadro. En el caso de Turquía, incluso llevó a que apareciera dos veces en octavos.

El siguiente gráfico muestra las rondas finales (de cuartos a la final) que el modelo XGBoost proyecta antes del inicio del torneo:

ChatGPT Image Jun 11, 2026, 04_37_40 PM.png

El equipo moneda al aire: Estados Unidos

La gracia de un modelo así está en los equipos que desafían la prueba del ojo, y el ejemplo más claro son los Estados Unidos. Si vas a la visión general del torneo en el dashboard, verás enseguida que EE. UU. destaca por color.

Como coanfitriones ante su afición, podrías esperar un inicio cómodo, pero el modelo es mucho más cauto: les da solo alrededor de un 54,6% de opciones de salir del grupo, la 13.ª más baja de todo el cuadro (¡recuerda que pasan dos tercios!), porque su grupo con Australia, Paraguay y Turquía está inusualmente igualado.

Lo interesante viene después. Si pasan por los pelos, EE. UU. ronda prácticamente el cara o cruz en cada ronda siguiente. Al encadenar esos lances, aterrizan en torno a un 2% de probabilidad de ganar el torneo, la 13.ª más alta de las 48 selecciones.

Un equipo que es 13.º por la cola para salir del grupo y 13.º por arriba para ganarlo todo es casi la definición perfecta de equipo moneda al aire: nunca favorito, nunca descartado.

Reflexiones finales

Este proyecto ha sido mucho trabajo y abarca mucho más de lo que cabe en un artículo. En el repo hay de todo lo que no entró aquí: el conjunto completo de modelos candidatos, la ingeniería de variables y la orquestación que mantiene todo en marcha, por ejemplo.

Por ahora, el modelo ha hecho sus apuestas y el torneo será el juez. Hayas venido por MLOps o por el fútbol, espero que disfrutes viéndolo desarrollarse tanto como yo. Puedes seguir el pronóstico en vivo a medida que entren los partidos y comprobar lo bien que aguantan las predicciones.

Si quieres profundizar en algunos de los conceptos que he mencionado, te recomiendo nuestro curso MLOps Concepts.

Preguntas frecuentes sobre la predicción del ganador del Mundial 2026

¿Quién ganará el Mundial 2026?

A 10 de junio de 2026, justo antes de que empiece el torneo, el modelo sitúa a España y Argentina como favoritas conjuntas, cada una con aproximadamente un 16% de opciones de ganar, seguidas de Francia, Inglaterra, Brasil y Colombia. Ningún equipo es favorito destacado, lo que refleja lo abierto que está el torneo. Son cifras en vivo que se mueven según entran resultados, así que el dashboard siempre muestra los números actuales.

¿Qué precisión puede alcanzar un modelo de machine learning al predecir fútbol?

El fútbol de selecciones es difícil de pronosticar: hay pocos goles y los equipos juegan pocos partidos competitivos, así que incluso un buen modelo deja mucho al azar. En este proyecto, los cinco mejores modelos quedaron a unos 0,001 de RPS entre sí, lo que sugiere que el techo de precisión lo marcan sobre todo los datos y las variables disponibles, más que el algoritmo. El factor único más determinante fue la brecha de valoración Elo entre los dos equipos.

¿Por qué predecir el número de goles y no el resultado del partido?

Predecir los goles de cada equipo, en lugar de un simple victoria, empate o derrota, produce una distribución completa de probabilidad sobre los marcadores. Eso es lo que permite simular un torneo entero: una vez que puedes muestrear marcadores plausibles, puedes jugar la fase de grupos y el cuadro eliminatorio miles de veces y obtener la probabilidad de avance o de victoria de cada equipo.

Además, los conteos de goles siguen razonablemente bien una distribución de Poisson, lo que encaja con este estilo de modelado.

¿Qué es una simulación de Monte Carlo y por qué ejecutar 10.000?

Una simulación de Monte Carlo reproduce repetidamente un proceso aleatorio para estimar probabilidades que son difíciles de calcular directamente. Aquí, cada ejecución extrae un marcador para cada partido a partir de las predicciones del modelo y juega el torneo hasta un ganador; al hacerlo 10.000 veces, las predicciones de un solo partido se convierten en porcentajes estables como "España gana alrededor del 16% de las veces". Un torneo simulado es solo un posible resultado, pero diez mil aproximan bien la distribución real de posibilidades.

¿Qué herramientas necesitas para construir una canalización de MLOps como esta?

Las piezas clave son el versionado de datos (este proyecto utiliza DVC), el seguimiento de experimentos (MLflow), una forma de ejecutar jobs programados (Google Cloud Run con Cloud Scheduler) y una vía para servir los resultados (un dashboard de Streamlit).

Los modelos se apoyan en una mezcla de librerías de Python: scikit-learn (Ridge y random forest), XGBoost (la campeona), statsmodels y SciPy (las regresiones Poisson, Poisson bivariante y binomial negativa, además de SARIMAX), PyMC (el modelo bayesiano) y Keras (la LSTM y la CNN), con pandas y NumPy para el manejo de datos.

Ninguna es estrictamente necesaria para un modelo puntual, pero juntas hacen que la canalización sea reproducible y capaz de reentrenarse y actualizarse sin trabajo manual.


Tom Farnschläder's photo
Author
Tom Farnschläder
LinkedIn

Editor de ciencia de datos en DataCamp | Me encanta hacer previsiones y crear con API.

Temas

Los mejores cursos de machine learning

Curso

Understanding Machine Learning

2 h
293.2K
Introducción al machine learning, ¡y no hay que programar!
Ver detallesRight Arrow
Iniciar curso
Ver másRight Arrow
Relacionado
Top MLOps Tools

blog

25 Herramientas MLOps que debes conocer en 2025

Descubre las mejores herramientas MLOps para el seguimiento de experimentos, la gestión de metadatos de modelos, la orquestación de flujos de trabajo, el versionado de datos y canalizaciones, el despliegue y servicio de modelos, y la supervisión de modelos en producción.
Abid Ali Awan's photo

Abid Ali Awan

15 min

blog

8 modelos de machine learning explicados en 20 minutos

Descubre todo lo que necesitas saber sobre los tipos de modelos de machine learning, incluyendo para qué se utilizan y ejemplos de cómo ponerlos en práctica.
Natassha Selvaraj's photo

Natassha Selvaraj

15 min

Machine Learning Concept

blog

¿Qué es el machine learning? Definición, tipos, herramientas y más

Descubre todo lo que necesitas saber sobre el machine learning en 2023, incluidos sus tipos, usos, carreras profesionales y cómo iniciarte en el sector.
Matt Crabtree's photo

Matt Crabtree

14 min

blog

La maldición de la dimensionalidad en el aprendizaje automático: Retos, repercusiones y soluciones

Explore la maldición de la dimensionalidad en el análisis de datos y el aprendizaje automático, incluidos sus retos, efectos en los algoritmos y técnicas como PCA, LDA y t-SNE para combatirla.
Abid Ali Awan's photo

Abid Ali Awan

7 min

MachineLearningLifecycle

blog

Explicación del ciclo de vida del machine learning

Conoce los pasos de un proyecto estándar de machine learning mientras exploramos los entresijos del ciclo de vida del machine learning utilizando CRISP-ML(Q).
Abid Ali Awan's photo

Abid Ali Awan

10 min

Tutorial

Guía introductoria para el ajuste preciso de los LLM

El ajuste preciso de los grandes modelos lingüísticos (LLM) ha revolucionado el procesamiento del lenguaje natural (PLN) y ofrece capacidades sin precedentes en tareas como la traducción lingüística, el análisis del sentimiento y la generación de textos. Este enfoque transformador aprovecha modelos preentrenados como el GPT-2 y mejora su rendimiento en dominios específicos mediante el proceso de ajuste preciso.
Josep Ferrer's photo

Josep Ferrer

Ver másVer más