Scraping avec Python : La Formation Complète

Scraping avec Python : La Formation Complète

108.411 Lượt nghe
Scraping avec Python : La Formation Complète
🚀 20$ offerts sur Bright Data en créant un compte avec ce lien : https://brdta.com/docstring Retrouvez Bright Data sur leur chaîne YouTube : @BrightData Apprenez le scraping en partant de 0 avec cette formation complète. Cette formation est réalisée avec Python mais toute la théorie du scraping et du contournement des blocages peut s'appliquer à n'importe quel langage permettant de faire du scraping. ---------------------------------------------------------- PRÉREQUIS : Pour suivre cette formation avec Python, vous devez maîtriser les bases du langage : https://www.youtube.com/watch?v=LamjAFnybo0 ---------------------------------------------------------- 🔗 Sources des scripts https://github.com/DocstringFr/formation-scraping-youtube 🖥️ Créez votre VPS sur Infomaniak https://www.infomaniak.com/fr/hebergement/vps-cloud?utm_source=youtube&utm_medium=social&utm_campaign=docstring&utm_term=65aa5df4e7416 🔗 Ma formation complète Python sur Udemy (+60h de formation) ● https://bit.ly/3iGZu9a 🔖 Abonne-toi à Docstring ● https://www.docstring.fr/formules/?utm_source=youtube&utm_campaign=scraping-complet 💬 Rejoins-nous sur le serveur Discord ● https://www.docstring.fr/discord/?utm_source=youtube&utm_campaign=scraping-complet ---------------------------------------------------------- ===== CHAPITRES ===== 00:00:00 Introduction 00:03:13 Le programme de la formation 00:07:58 Définition du scraping 00:08:56 Les prérequis 00:11:06 Les obstacles (et la solution) 00:13:20 PARTIE 1 : les bases du scraping 00:18:26 Récupérer le contenu d'une page avec requests 00:24:35 Analyser le contenu d'une page avec BeautifulSoup 00:33:41 Récupérer des informations avec BeautifulSoup 00:43:03 Analyser la page d'accueil des livres 00:54:56 À vous de jouer ! 01:04:32 Exercices simples : Introduction 01:06:08 Récupérer les catégories avec un seul livre 01:08:40 Solution 01:32:01 Récupérer les livres notés 1 étoile 01:35:44 Solution 02:08:18 Exercice avancé : Introduction 02:09:08 Énoncé de l'exercice 02:10:23 Présentation de Selectolax et Loguru 02:18:04 Préparation d'un cahier des charges 02:28:32 Création du corps du script 02:47:46 Récupération du prix d'un livre 03:12:41 Récupérer toutes les URL sur une page 03:24:48 Récupérer l'URL de la prochaine page 03:30:54 Récupérer toutes les URL de la librairie 03:38:44 Récupérer la valeur totale de la librairie 03:46:51 Optimisation de notre script avec les sessions 03:53:09 Conclusion 03:53:59 PARTIE 2 : contourner les obstacles 03:55:57 Ce que dit la loi 03:56:38 Les CGU 03:59:25 Le RGPD 04:00:49 L'affaire entreparticuliers.com VS Leboncoin 04:01:58 Exemples de scraping licite et illicite 04:04:59 Le fichier robots.txt https://robots-txt.com/ 04:09:10 Entrevue avec Rony SHALIT https://brightdata.fr/trustcenter https://help.brightdata.com/hc/en-us/articles/11439997100945-Bright-Data-s-Site-Health-Monitor 04:46:29 Les blocages techniques 04:50:43 Les blocages volontaires 04:52:04 Le blocage par limitation de requêtes 04:59:18 Le blocage avec le user-agent 05:04:55 Présentation de Playwright 05:10:46 Utiliser playwright pour afficher le javascript 05:20:14 Interagir avec le DOM 05:26:22 Les méthodes indispensables à connaître 05:37:45 La solution Bright Data 05:38:43 Tour d'horizon de la plateforme 05:45:04 Créer votre compte sur Bright Data 05:48:28 Utiliser le réseau de proxy résidentiel 05:57:59 Utiliser le web unlocker 06:02:12 Utiliser le scraping browser 06:09:47 PARTIE 3 : Récupérer des données sur AirBnB 06:11:01 Préparation d'un scraping éthique 06:15:04 Analyse du site pour préparer le scraping 06:20:44 Créer le projet et installer les librairies 06:24:21 Scraping simple avec requests 06:29:15 Sauvegarder le HTML sur le disque 06:34:57 Récupérer le HTML depuis le disque 06:42:39 Récupérer les données de prix 07:03:49 Lancer le script en ligne de commande 07:06:11 Scraping avancé avec Playwright 07:15:46 Passer à travers toutes les pages 07:25:09 Utiliser le scraping browser de Bright Data 07:33:44 Automatiser l'ouverture du débogueur 07:39:11 Minimiser la bande passante 07:43:20 Naviguer jusqu'à la page des recherches 07:52:09 Passer au mois suivant 08:09:57 Faire défiler les mois 08:22:14 Récupérer le prix et finaliser le script 08:34:01 PARTIE 4 : Système d'alerte e-commerce 08:35:16 Les outils utilisés 08:38:01 Préparation d'un scraping éthique 08:39:55 Récupérer le HTML avec requests 08:52:47 Ajouter les variables d'environnement 08:54:57 Utiliser le Web Unlocker 09:00:09 Garder l'historique des valeurs sur le disque 09:04:45 Comparer la valeur actuelle avec la précédente 09:08:17 Ajouter la fonction d'alerte avec Pushover 09:11:27 Ajouter le logger 09:17:44 Terminer la fonction principale 09:28:02 Envoyer les fichiers sur le VPS 09:32:41 Créer un Cron Job 09:39:17 Enlever l'avertissement avec urllib 09:40:45 Ajouter les alertes Sentry 09:50:22 Outro