L'éthique dans le web scraping

Grattage, 25 janvier 20225 minutes de lecture

Le "web scraping" n'est pas un concept nouveau, puisque tout l'internet repose sur lui. Par exemple, lorsque vous partagez le lien d'une vidéo Youtube sur Facebook, ses données sont récupérées afin que les internautes puissent voir la vignette de la vidéo dans votre message. Il existe donc une infinité de façons d'utiliser le scraping de données au bénéfice de tous. Mais il y a

Table des matières

Le "web scraping" n'est pas un concept nouveau, puisque l'ensemble de l'internet repose sur lui. Par exemple, lorsque vous partagez le lien d'une vidéo Youtube sur Facebook, ses données sont récupérées afin que les internautes puissent voir la vignette de la vidéo dans votre message. Il existe donc une infinité de façons d'utiliser le "data scraping" au bénéfice de tous. Toutefois, la récupération de données sur le web comporte certains aspects éthiques.

Supposons que vous demandiez à bénéficier d'un régime d'assurance maladie et que vous donniez volontiers vos informations personnelles au prestataire en échange du service qu'il vous fournit. Mais que se passe-t-il si un inconnu utilise vos données par la magie du "web scraping" et les utilise à des fins personnelles ? Les choses peuvent commencer à devenir inappropriées, n'est-ce pas ? C'est là qu'intervient la nécessité de pratiquer un web scraping éthique. 

Dans cet article, nous aborderons le code de conduite du web scraping et les considérations juridiques et éthiques.

Code de conduite sur la récupération de données sur le web

Pour pratiquer le "web scraping" en toute légalité, vous devez respecter les règles simples suivantes.

Ne brisez pas l'Internet - Vous devez savoir que tous les sites web ne peuvent pas supporter des milliers de requêtes par seconde. Certains sites l'autorisent, mais d'autres peuvent vous bloquer si vous envoyez plusieurs requêtes en utilisant la même adresse IP. Par exemple, si vous écrivez un scraper qui suit les hyperliens, vous devez d'abord le tester sur un ensemble de données plus petit et vous assurer qu'il fait ce qu'il est censé faire. En outre, vous devez ajuster les paramètres de votre scraper afin de prévoir un délai entre les requêtes. 

Afficher le fichier robots.txt - Les sites web utilisent des fichiers robots.txt pour indiquer aux robots si le site peut être exploré ou non. Lorsque vous extrayez des données du web, vous devez bien comprendre et respecter le fichier robots.txt afin d'éviter les conséquences juridiques. 

Partagez ce que vous pouvez - Si vous obtenez l'autorisation de récupérer les données dans le domaine public et que vous les récupérez, vous pouvez les publier (par exemple, sur datahub.io) pour que d'autres personnes puissent les réutiliser. Si vous écrivez un scraper web, vous pouvez partager son code (par exemple, sur Github) afin que d'autres puissent en bénéficier. 

Ne partagez pas illégalement le contenu téléchargé - Il est parfois acceptable de récupérer des données à des fins personnelles, même si les informations sont protégées par des droits d'auteur. En revanche, il est illégal de partager des données dont vous n'avez pas le droit de disposer.

Vous pouvez demander gentiment - Si vous avez besoin de données d'une organisation particulière pour votre projet, vous pouvez lui demander directement si elle peut vous fournir les données que vous souhaitez. Vous pouvez également utiliser les informations principales de l'organisation sur son site web et vous épargner ainsi la création d'un scraper web. 

Considérations éthiques relatives à la fouille du Web

Vous devez garder à l'esprit les règles éthiques suivantes lorsque vous récupérez des données sur le web.

Ne volez pas les données

Il faut savoir que le web scraping peut être illégal dans certaines circonstances. Si les conditions générales du site web que nous voulons récupérer interdisent aux utilisateurs de copier et de télécharger le contenu, nous ne devons pas récupérer ces données et nous devons respecter les conditions de ce site web.

Il n'y a pas de problème pour récupérer les données qui ne sont pas protégées par un système d'authentification avec mot de passe (données accessibles au public), à condition de ne pas perturber le site web. Cependant, cela peut poser un problème si vous partagez les données récupérées avec d'autres personnes. Par exemple, si vous téléchargez le contenu d'un site web et que vous le publiez sur un autre site web, votre "scraping" sera considéré comme illégal et constituera une violation des droits d'auteur. 

Ne pas briser le Web

Lorsque vous écrivez un scraper web, vous interrogez un site web à plusieurs reprises et accédez potentiellement à un grand nombre de pages. Pour chaque page, une requête est envoyée au serveur web qui héberge le site. Le serveur traite la demande et renvoie une réponse à l'ordinateur qui exécute le code. Les demandes que nous envoyons consomment les ressources du serveur. Par conséquent, si nous envoyons trop de demandes sur une courte période, nous pouvons empêcher les autres utilisateurs réguliers d'accéder au site pendant cette période.

Les pirates lancent souvent des attaques par déni de service (DoS) pour mettre le réseau ou la machine hors service et le rendre inaccessible aux utilisateurs visés. Ils y parviennent en envoyant au serveur des informations qui déclenchent une panne ou en inondant le site web cible de trafic. 

La plupart des serveurs web modernes intègrent des mesures de prévention contre l'utilisation illégitime de leurs ressources, les attaques par déni de service étant courantes sur l'internet. Ils sont attentifs au grand nombre de requêtes provenant d'une seule adresse IP. Ils peuvent bloquer cette adresse si elle envoie plusieurs requêtes dans un court laps de temps.

Demander et partager

Il est utile de demander aux conservateurs ou aux propriétaires des données que vous envisagez d'extraire, en fonction de la portée de votre projet. Vous pouvez leur demander s'ils disposent de données dans un format structuré pouvant répondre aux besoins de votre projet. Si vous souhaitez utiliser leurs données à des fins de recherche d'une manière qui pourrait potentiellement les intéresser, vous pouvez vous épargner la tâche d'écrire un scraper web. 

Vous pouvez également éviter à d'autres personnes d'avoir à écrire un scraper web. Par exemple, si vous publiez vos données ou votre documentation dans le cadre d'un projet de recherche, quelqu'un pourrait vouloir obtenir vos données pour les utiliser. Si vous le souhaitez, vous pouvez fournir à d'autres un moyen de télécharger vos données brutes dans un format structuré, ce qui permet d'économiser du temps et de l'argent.

Mieux vaut prévenir que guérir

La législation sur la confidentialité des données et les droits d'auteur varie d'un pays à l'autre. Vous devez vérifier les lois qui s'appliquent dans votre contexte. Par exemple, dans des pays comme l'Australie, il est illégal d'extraire des informations personnelles telles que des numéros de téléphone, des adresses électroniques et des noms, même s'ils sont accessibles au public.

Vous devez respecter le code de conduite du web scraping pour extraire des données à des fins personnelles. Toutefois, si vous souhaitez collecter de grandes quantités de données à des fins commerciales ou de recherche, vous devrez probablement demander un avis juridique.

proxys Pour un scraping éthique du web

Vous savez que proxys a une grande variété d'applications. Leur but premier est de cacher l'adresse IP et la localisation de l'utilisateur. proxys permet également aux utilisateurs d'accéder à des contenus géo-restreints lorsqu'ils surfent sur Internet. Ainsi, les utilisateurs peuvent accéder aux pages cachées car proxys contourne le contenu et les restrictions géographiques.

Vous pouvez utiliser proxys pour maximiser le rendement du scraper en réduisant les taux de blocage. Sans eux, vous ne pouvez extraire qu'un minimum de données du web. En effet, proxys surpasse les taux d'exploration, ce qui permet aux spiders d'extraire davantage de données. Le taux d'exploration indique le nombre de requêtes que vous pouvez envoyer dans un laps de temps donné. Ce taux varie d'un site à l'autre. 

Choisir proxys

Vous pouvez choisir proxys en fonction des exigences de votre projet. Vous pouvez utiliser un proxy privé ou un proxy partagé.

  • Le site proxys privé est la meilleure solution si votre projet nécessite des performances élevées et une connexion maximale.
  • Le site proxys est bien adapté aux projets à petite échelle avec un budget limité.
  • Il est déconseillé d'utiliser le site proxys gratuit pour extraire des données du web. En effet, ces sites sont ouverts au public et sont souvent utilisés pour des activités illégales.

Vous pouvez identifier les sources IP en plus de choisir proxys pour votre projet. Il existe trois catégories de serveurs proxy. 

Datacenter proxys - Il s'agit de l'adresse proxys la moins chère et la plus pratique pour le web scraping. Ces IP sont créées sur des serveurs indépendants et utilisées efficacement pour réaliser des projets de scraping à grande échelle.

Residential proxys - Ils peuvent être difficiles à obtenir car ils sont affiliés à des tiers. 

Mobile proxys - Ce sont les plus chers et ils sont parfaits si vous devez collecter des données qui ne sont visibles que sur des appareils mobiles.

Conclusion sur l'éthique du Web Scraping

Jusqu'à présent, nous avons vu que vous pouvez extraire des données de l'internet en gardant à l'esprit les considérations juridiques et éthiques. Par exemple, vous ne devez pas voler des données sur le web. Vous ne pouvez pas partager des données dont vous n'avez pas le droit. Si vous avez besoin des données d'une organisation pour votre projet, vous pouvez lui demander gentiment de partager ses données brutes dans un format structuré. Sinon, vous pouvez écrire votre scraper web pour extraire les données du site web s'il le permet. Par ailleurs, nous avons discuté du fait que vous pouvez choisir différentes adresses proxys en fonction des besoins de votre projet. Vous pouvez utiliser le centre de données ou les adresses IP résidentielles car elles sont largement utilisées pour le web scraping.