Passer au contenu principal

Cours

Apprentissage non supervisé en Python

IntermédiaireNiveau de compétence

Mis à jour 12/2025

Apprenez à regrouper, transformer, visualiser et exploiter des données non étiquetées avec scikit-learn et scipy pour en tirer des insights.

Commencer Le Cours Gratuitement

PythonMachine Learning

4 h

13 vidéos

52 Exercices

4,150 XP

170K+

Certificat de réussite

Apprécié par les Utilisateur dans des milliers d’entreprises

Former une équipe ?

Essayez pour les entreprises

Description du cours

Supposons que vous disposiez d'un ensemble de clients présentant diverses caractéristiques telles que l'âge, la localisation et l'historique financier, et que vous souhaitiez identifier des modèles et les regrouper en clusters. Ou bien, vous disposez d'un ensemble de textes, tels que des pages Wikipédia, et vous souhaitez les segmenter en catégories en fonction de leur contenu. C'est le domaine de l'apprentissage non supervisé, appelé ainsi parce que vous ne guidez ni ne supervisez la découverte de modèles par une tâche de prédiction, mais que vous découvrez plutôt la structure cachée de données non étiquetées. L'apprentissage non supervisé englobe diverses techniques de machine learning, du regroupement à la réduction de dimension en passant par la factorisation matricielle. Dans ce cours, vous apprendrez les principes fondamentaux de l'apprentissage non supervisé et mettrez en œuvre les algorithmes essentiels à l'aide de scikit-learn et SciPy. Vous apprendrez à regrouper, transformer, visualiser et extraire des informations à partir d'ensembles de données non étiquetés, et vous terminerez le cours en créant un système de recommandation pour recommander des artistes musicaux populaires.Les vidéos contiennent des transcriptions en direct que vous pouvez afficher en cliquant sur « Afficher la transcription » en bas à gauche des vidéos. Le glossaire du cours se trouve à droite dans la section « Ressources ».Pour obtenir des crédits CPE, vous devez suivre le cours dans son intégralité et obtenir une note de 70 % à l'évaluation. Vous pouvez accéder à l'évaluation en cliquant sur la mention « Crédits CPE » à droite.

Prérequis

Supervised Learning with scikit-learn

1

Clustering for Dataset Exploration

Learn how to discover the underlying groups (or "clusters") in a dataset. By the end of this chapter, you'll be clustering companies using their stock market prices, and distinguishing different species by clustering their measurements.

Unsupervised Learning

How many clusters?

Clustering 2D points

Inspect your clustering

Evaluating a clustering

How many clusters of grain?

Evaluating the grain clustering

Transforming features for better clusterings

Scaling fish data for clustering

Clustering the fish data

Clustering stocks using KMeans

Which stocks move together?

Commencer Le Chapitre

2

Visualization with Hierarchical Clustering and t-SNE

In this chapter, you'll learn about two unsupervised learning techniques for data visualization, hierarchical clustering and t-SNE. Hierarchical clustering merges the data samples into ever-coarser clusters, yielding a tree visualization of the resulting cluster hierarchy. t-SNE maps the data samples into 2d space so that the proximity of the samples to one another can be visualized.

Visualizing hierarchies

How many merges?

Hierarchical clustering of the grain data

Hierarchies of stocks

Cluster labels in hierarchical clustering

Which clusters are closest?

Different linkage, different hierarchical clustering!

Intermediate clusterings

Extracting the cluster labels

t-SNE for 2-dimensional maps

t-SNE visualization of grain dataset

A t-SNE map of the stock market

Commencer Le Chapitre

3

Decorrelating Your Data and Dimension Reduction

Dimension reduction summarizes a dataset using its common occuring patterns. In this chapter, you'll learn about the most fundamental of dimension reduction techniques, "Principal Component Analysis" ("PCA"). PCA is often used before supervised learning to improve model performance and generalization. It can also be useful for unsupervised learning. For example, you'll employ a variant of PCA will allow you to cluster Wikipedia articles by their content!

Visualizing the PCA transformation

Correlated data in nature

Decorrelating the grain measurements with PCA

Principal components

Intrinsic dimension

The first principal component

Variance of the PCA features

Intrinsic dimension of the fish data

Dimension reduction with PCA

Dimension reduction of the fish measurements

A tf-idf word-frequency array

Clustering Wikipedia part I

Clustering Wikipedia part II

Commencer Le Chapitre

4

Discovering Interpretable Features

In this chapter, you'll learn about a dimension reduction technique called "Non-negative matrix factorization" ("NMF") that expresses samples as combinations of interpretable parts. For example, it expresses documents as combinations of topics, and images in terms of commonly occurring visual patterns. You'll also learn to use NMF to build recommender systems that can find you similar articles to read, or musical artists that match your listening history!

Non-negative matrix factorization (NMF)

Non-negative data

NMF applied to Wikipedia articles

NMF features of the Wikipedia articles

NMF reconstructs samples

NMF learns interpretable parts

NMF learns topics of documents

Explore the LED digits dataset

NMF learns the parts of images

PCA doesn't learn parts

Building recommender systems using NMF

Which articles are similar to 'Cristiano Ronaldo'?

Recommend musical artists part I

Recommend musical artists part II

Final thoughts

Commencer Le Chapitre

Apprentissage non supervisé en Python

Cours
terminé

Obtenez un certificat de réussite

Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre curriculum vitae
Partagez-le sur les réseaux sociaux et dans votre évaluation de performanceInscrivez-vous Maintenant

Pour les entreprises

Former 2 personnes ou plus ?

Obtenez pour votre équipe un accès à l’ensemble de la plateforme DataCamp, y compris toutes les fonctionnalités.

Dans les Cursus suivants

Associate Data Scientist en PythonCertification

Ingénieur IA associé pour les scientifiques de donnéesCertification

Principes fondamentaux de l'apprentissage automatique en Python

Chercheur en apprentissage automatique en Python

formateur

Benjamin Wilson

Benjamin Wilson

Director of Research at lateral.io

collaborateurs

Cours ressources

Company stock price movementsensemble de données

Eurovision 2016ensemble de données

Fish measurementsensemble de données

Grainsensemble de données

LCD digitsensemble de données

Musical artistsensemble de données

Wikipedia articlesensemble de données

Wineensemble de données

Course Glossaryensemble de données

Rejoignez plus de 19 millions d’Utilisateurs et commencez Apprentissage non supervisé en Python dès aujourd’hui !

Apprenez où que vous soyez avec l'application DataCamp

Progressez où que vous soyez grâce à nos cours conçus pour mobile et à nos défis quotidiens de 5 minutes.