? Voici les possibilités qui s'offrent à vous :","Crunchbase","À propos de nous","Merci à tous pour votre formidable soutien !","Liens rapides","Programme d'affiliation","ProxyScrape essai premium","Vérificateur de procuration en ligne","Types de mandataires","Pays mandataires","Proxy usecases","Important","Politique en matière de cookies","Clause de non-responsabilité","Politique de confidentialité","Conditions d'utilisation","Médias sociaux","Facebook","LinkedIn","Twitter","Quora","Télégramme","Discord"," © Copyright 2024 - Thib BV | Brugstraat 18 | 2812 Mechelen | Belgique | VAT BE 0749 716 760"]}
Dans cet article, nous allons créer un scraper web pour récupérer les derniers articles de presse de différents journaux et les stocker sous forme de texte. Nous passerons par les deux étapes suivantes pour analyser en profondeur l'ensemble du processus.
N'hésitez pas à passer d'une section à l'autre pour en savoir plus sur la manière d'effectuer du web scraping d'articles de presse en utilisant Python.
Si nous voulons retirer des informations importantes d'un site web ou d'une page web, il est important de savoir comment ce site web fonctionne. Lorsque nous accédons à une URL spécifique à l'aide d'un navigateur web (Chrome, Firefox, Mozilla, etc.), cette page web est une combinaison de trois technologies,
Ces trois langages de programmation permettent de créer et de manipuler les aspects d'une page web.
Je suppose que vous connaissez les bases d'une page web et du HTML pour cet article. Certains concepts HTML comme les divs, les balises, les en-têtes, etc. peuvent être très utiles lors de la création de ce scraper web. Vous n'avez pas besoin de tout savoir, mais seulement les bases de la conception d'une page web et la façon dont l'information est contenue, et nous sommes prêts à partir.
Python dispose de plusieurs paquets qui nous permettent d'extraire des informations d'une page web. Nous continuerons avec BeautifulSoup car c'est l'une des bibliothèques Python les plus connues et les plus faciles à utiliser pour le web scraping.
BeautifulSoup est le meilleur outil pour analyser le contenu HTML d'une URL et y accéder avec des balises et des étiquettes. Il sera donc pratique d'extraire certains morceaux de texte du site web.
Avec seulement 3 à 5 lignes de code, nous pouvons faire la magie et extraire n'importe quel type de texte du site web de notre choix sur Internet, ce qui en fait un logiciel facile à utiliser mais puissant.
Nous commençons par les bases. Pour installer la bibliothèque, tapez la commande suivante dans votre distribution Python,
Nous utiliserons également le module 'requests' qui fournit à BeautifulSoup le code HTML de n'importe quelle page. Pour l'installer, tapez la commande suivante dans votre distribution Python,
Ce module de requêtes nous permettra de récupérer le code HTML de la page web et de la parcourir à l'aide du package BeautfulSoup. Les deux commandes qui nous faciliteront la tâche sont les suivantes
find_all(element tag, attribute) : Cette fonction prend pour paramètres une balise et des attributs et permet de localiser n'importe quel élément HTML d'une page web. Elle identifiera tous les éléments du même type. Nous pouvons utiliser find() à la place pour n'obtenir que le premier élément.
get_text() : Une fois que nous avons localisé un élément donné, cette commande nous permet d'extraire le texte qui s'y trouve.
Pour naviguer dans le code HTML de notre page web et localiser les éléments que nous voulons récupérer, nous pouvons utiliser l'option "inspecter l'élément" en cliquant avec le bouton droit de la souris sur la page ou en appuyant simplement sur Ctrl+F. Cela vous permettra de voir le code source de la page web.
Une fois que nous aurons localisé les éléments qui nous intéressent, nous obtiendrons le code HTML avec le module requests, et pour extraire ces éléments, nous utiliserons BeautifulSoup.
Si nous inspectons le code HTML des articles d'actualité, nous verrons que l'article de la première page a une structure similaire,
The title has <h2> element with itemprop=”headline” and class=”articulo-titulo” attributes. It has an href attribute containing the text. So we will now extract the text using the following commands:
Une fois que nous avons obtenu le contenu HTML à l'aide du module requests, nous pouvons l'enregistrer dans la variable coverpage :
Ensuite, nous allons définir la variable soupe,
Dans la ligne de code suivante, nous allons localiser les éléments que nous recherchons,
En utilisant final_all, nous obtenons toutes les occurrences. Il doit donc renvoyer une liste dans laquelle chaque élément est un article d'actualité,
Pour pouvoir extraire le texte, nous utiliserons la commande suivante :
Si nous voulons accéder à la valeur d'un attribut (dans notre cas, le lien), nous pouvons utiliser la commande suivante,
Cela nous permettra d'obtenir le lien en texte clair.
Si vous avez assimilé tous les concepts jusqu'à ce stade, vous pouvez récupérer sur le web n'importe quel contenu de votre choix.
L'étape suivante consiste à accéder à chaque contenu de l'article avec l'attribut href, à obtenir le code source pour trouver les paragraphes dans le code HTML, et enfin à les récupérer avec BeautifulSoup. C'est le même processus que nous avons décrit plus haut, mais nous devons définir les balises et les attributs qui identifient le contenu de l'article.
Le code pour la fonctionnalité complète est donné ci-dessous. Je n'expliquerai pas chaque ligne séparément car le code est commenté ; on peut le comprendre clairement en lisant ces commentaires.
Mettons les articles extraits dans le tableau suivant :
Pour améliorer l'expérience de l'utilisateur, nous mesurerons également le temps nécessaire à un script pour obtenir les nouvelles. Nous définirons une fonction à cet effet et l'appellerons ensuite. Encore une fois, je n'expliquerai pas chaque ligne de code car le code est commenté. Pour bien comprendre, vous pouvez lire ces commentaires.
Un proxy dédié à un centre de données possède plusieurs caractéristiques, telles qu'une bande passante illimitée et des connexions simultanées, un site HTTP dédié proxys pour faciliter la communication et une authentification IP pour plus de sécurité. Avec un temps de disponibilité de 99,9 %, vous pouvez être assuré que le centre de données dédié fonctionnera toujours, quelle que soit la session. Enfin, ProxyScrape offre un excellent service à la clientèle et vous aidera à résoudre votre problème dans les 24-48 heures ouvrables.
L'autre caractéristique du proxy résidentiel de ProxyScrapeest une fonction rotative. Un proxy rotatif vous permet d'éviter une interdiction permanente de votre compte car votre proxy résidentiel change dynamiquement votre adresse IP, ce qui rend difficile pour le serveur cible de vérifier si vous utilisez un proxy ou non.
En outre, les autres caractéristiques d'un proxy résidentiel sont les suivantes : bande passante illimitée, connexion simultanée, HTTP/s dédié proxys, proxys à tout moment de la session en raison des 7 millions de proxys dans le pool de proxy, authentification par nom d'utilisateur et mot de passe pour plus de sécurité, et enfin, la possibilité de changer le serveur du pays. Vous pouvez sélectionner le serveur de votre choix en ajoutant le code du pays à l'authentification du nom d'utilisateur.
Ensuite, la meilleure chose à faire est de changer le serveur proxy en fonction du pays. Il suffit d'ajouter l'ISO_CODE du pays à la fin de l'authentification IP ou de l'authentification par nom d'utilisateur et mot de passe.
La bibliothèque python s'appelle "BeautifulSoup" et peut automatiquement extraire des données de n'importe quel article de presse. La seule exigence est une connaissance de base du langage HTML pour localiser la balise HTML du code source de la page qui contient les données à extraire.
La réponse dépend des conditions générales du site web. Cependant, la plupart des articles d'actualité peuvent être récupérés, car toutes les informations sont intentionnellement mises à la disposition du public. Toutes les données publiques peuvent être récupérées tant que votre méthode de récupération ne nuit pas aux données ou au propriétaire du site web.
Vous pouvez récupérer Google News ou n'importe quel article d'actualité en utilisant python avec l'aide de la bibliothèque python appelée "BeautifulSoup". Installez la bibliothèque et un proxy résidentiel fiable pour éviter le blocage de l'IP du serveur cible.
Dans cet article, nous avons vu les bases du web scraping en comprenant les bases de la conception et de la structure des pages web. Nous avons également acquis une expérience pratique en extrayant des données d'articles de presse. Le web scraping peut faire des merveilles s'il est bien fait. Par exemple, un modèle entièrement optimisé peut être créé sur la base des données extraites qui peuvent prédire les catégories et montrer des résumés à l'utilisateur. La chose la plus importante à faire est de déterminer vos besoins et de comprendre la structure de la page. Python dispose de bibliothèques très puissantes mais faciles à utiliser pour extraire les données de votre choix. Cela a rendu le web scraping très facile et amusant.
Il est important de noter que ce code est utile pour extraire des données de cette page web particulière. Si nous voulons le faire à partir d'une autre page, nous devons optimiser notre code en fonction de la structure de cette page. Mais une fois que nous savons comment les identifier, le processus est exactement le même.