dark proxyscrape logo

Comment utiliser un proxy avec le module Requests en Python

Guides, Comment faire, proxys, Mar-03-20225 minutes de lecture

Every computer gets a unique Internet Protocol (IP) address that identifies the computer and its geographic location when connected to the Internet. Your computer sends out a request whenever it needs any information from the Internet. The request is sent to a target computer that checks the type of information being asked for. The target

Chaque ordinateur reçoit une adresseIP (Internet Protocol) unique qui identifie l'ordinateur et son emplacement géographique lorsqu'il est connecté à l'internet. Votre ordinateur envoie une demande chaque fois qu'il a besoin d'une information sur l'internet. La demande est envoyée à un ordinateur cible qui vérifie le type d'informations demandées. L'ordinateur cible renvoie l'information s'il est autorisé à la communiquer à notre adresse IP. Parfois, l'ordinateur souhaite obtenir des informations sur l'internet sans être identifié. Ces informations sont généralement bloquées, mais nous pouvons les obtenir en utilisant un proxy qui agit comme un intermédiaire entre le client et la machine serveur.

Chaque serveur proxy possède son adresse IP. Ainsi, lorsqu'un utilisateur demande à accéder à un site web via un proxy, le site web envoie les données à l'adresse IP du serveur proxy qui les transmet à l'utilisateur.

  • proxys masquer l'identité des "web scrapers" et faire en sorte que leur trafic ressemble à celui d'un utilisateur normal.
  • proxys fournir une sécurité supplémentaire aux sites web et équilibrer le trafic internet.
  • proxys protéger les données des internautes ou faciliter l'accès aux sites web bloqués par le mécanisme de censure d'un pays.

Utilisation d'un proxy avec le module Requests en Python

Pour utiliser proxys avec les requêtes Python, vous devez suivre les étapes ci-dessous.

Demandes d'importation

Importez le paquet requests qui est une simple bibliothèque HTTP. Vous pouvez facilement envoyer des requêtes par l'intermédiaire de ce paquetage sans avoir à ajouter manuellement des chaînes de requête à vos URL. Vous pouvez importer des requêtes à l'aide de la commande ci-dessous.

demandes d'importation

Créer un dictionnaire

Vous devez créer un dictionnaire proxys définissant les connexions HTTP et HTTPS. Vous pouvez donner à la variable du dictionnaire n'importe quel nom comme "proxys"qui associe un protocole à l'URL du proxy. De plus, vous devez faire en sorte que la variable URL corresponde au site web à partir duquel vous devez effectuer le scrape.

proxies = {
  "http":'http://203.190.46.62:8080',
  "https":'https://111.68.26.237:8080'
}
url = 'https://httpbin.org/ip'

Ici, le dictionnaire définit l'URL du proxy pour deux protocoles distincts, à savoir HTTP et HTTPS.

Créer une variable de réponse

Vous devez créer une variable de réponse qui utilise l'une des méthodes de requête. Cette méthode prend deux arguments :

  • L'URL que vous avez créée
  • Le dictionnaire que vous avez défini
response = requests.get(url,proxys = proxys)
print(response.json())

Le résultat est le suivant :

Vous pouvez également utiliser le module requests de Python pour effectuer une rotation des adresses IP, comme indiqué ci-dessous.

Vous devez importer le module de requêtes en utilisant la commande ci-dessous.

demandes d'importation

Créer la fonction sending_request

Vous devez créer une fonction sending_request et préférer utiliser le proxy http car la plupart des proxys gratuits n'utilisent pas le protocole https. Nous avons utilisé le bloc try-except car la plupart des proxys gratuits ne fonctionnent pas.

def sending_request(session, proxy):
    try:
        response = session.get('http://httpbin.org/ip', proxies={'http': f"http://{proxy}"})
        print(response.json())
    except:
        pass

Lire proxys_txt

Vous devez lire le fichier list_proxies.txt contenant la liste des proxys gratuits et l'enregistrer dans la variable nommée proxys.

if __name__ == "__main__":
   with open('list_proxies.txt', 'r') as file:
       proxys = file.readlines()

Créer une session

Vous devez créer une session à partir du module des demandes et suivre les étapes suivantes.

  • Boucle à travers le proxy
  • Transmettre le proxy et la session à la fonction sending_request
avec requests.Session() as session :
   pour proxy dans proxys:
        sending_request(session, proxy)

Vous obtiendrez la liste de proxys comme indiqué ci-dessous.

Il s'agit de quelques proxys, et la liste se poursuit avec d'autres proxys, mais tous ne fonctionnent pas.

Besoin de proxys

Chaque entreprise doit connaître les cinq raisons vitales d'utiliser proxys mentionnées ci-dessous.

Exécution anonyme de tâches sensibles

proxys sont bien connus pour leur capacité à anonymiser le trafic web. Mais la plupart des gens ne comprennent pas leur importance dans le secteur des affaires. Les serveurs proxy permettent aux responsables de la sécurité et aux journalistes de se protéger et de protéger les entreprises, les sources, les clients et les partenaires.

Vous pouvez également utiliser proxys pour protéger le développement et la recherche en cours ainsi que d'autres activités de l'entreprise. Supposons que votre entreprise utilise un proxy et un espion potentiel pour suivre le trafic web afin de déterminer le développement de votre entreprise. Dans ce cas, elle ne pourra pas suivre facilement vos employés.

Améliorer la sécurité des entreprises et des institutions

Vous savez que les violations de données sont coûteuses en termes d'image publique et de pertes financières. Les entreprises s'inquiètent donc des pirates informatiques. Mais proxys peut vous aider à réduire les risques de violation de données. Ils ajoutent une couche de sécurité supplémentaire entre vos serveurs et le trafic extérieur. Les serveurs proxy jouent également un rôle de tampon en faisant face à l'internet et en relayant les demandes des ordinateurs situés en dehors du réseau.

Si les pirates ont accès à vos serveurs proxy, ils auront toujours du mal à atteindre le serveur qui exécute le logiciel web où les données sont stockées.

Contrôler l'utilisation d'Internet par les employés

Vous savez que les violations de données sont coûteuses en termes d'image publique et de pertes financières. Les entreprises s'inquiètent donc des pirates informatiques. Mais proxys peut vous aider à réduire les risques de violation de données. Ils ajoutent une couche de sécurité supplémentaire entre vos serveurs et le trafic extérieur. Les serveurs proxy jouent également un rôle de tampon en faisant face à l'internet et en relayant les demandes des ordinateurs situés en dehors du réseau.

Si les pirates ont accès à vos serveurs proxy, ils auront toujours du mal à atteindre le serveur qui exécute le logiciel web où les données sont stockées.

Économiser la bande passante et obtenir des vitesses plus élevées

Certaines personnes pensent que les serveurs proxy ralentissent la vitesse de l'internet en raison de la quantité de travail qu'ils accomplissent en arrière-plan. Mais ce n'est pas toujours vrai. Les serveurs proxy peuvent être utilisés pour économiser de la bande passante et augmenter les vitesses :

  • Mise en cache des pages web et des fichiers consultés par plusieurs utilisateurs
  • Compression du trafic
  • Supprimer les publicités des sites web

Quel proxys utiliser ?

On pourrait penser qu'il n'existe qu'un seul type de mandataire qui offre tous les avantages aux entreprises :

  • Prévenir les violations de données
  • Fixer des prix compétitifs
  • Collecte de données précieuses sur les médias sociaux
  • Construire une stratégie de référencement efficace

En réalité, il existe de nombreux types de proxys , et celui à utiliser dépend de vos besoins ou de votre cas d'utilisation.

Voici les types les plus courants de proxys.

Centre de données proxys

Les centres de données proxys sont les plus utilisés proxys par les entreprises du monde entier. Les centres de données produisent et gèrent ces proxys. Vous pouvez utiliser ces proxys si vous souhaitez améliorer la sécurité de votre système, car ils sont bon marché et faciles à acquérir. Cependant, certains sites web interdisent leur utilisation car ils les associent à des activités de type bot.

Résidentiel proxys

Les proxys résidentiels sont associés à des résidences physiques et utilisent les adresses IP de personnes réelles fournies par les fournisseurs d'accès à Internet (FAI). Lorsque vous les utilisez pour vous connecter à un site web, vous avez l'air d'un utilisateur lambda. Vous avez donc moins de chances d'être détecté et banni. Vous pouvez récupérer une grande quantité de données web à l'aide de proxys et bénéficier d'un anonymat et d'une sécurité accrus.

Conclusion

Jusqu'à présent, nous avons vu qu'un proxy agit comme un relais entre le client et la machine serveur. Chaque fois que vous demandez des informations, votre ordinateur envoie cette demande au proxy, qui transmet ensuite les informations à l'ordinateur cible en utilisant une adresse IP différente. Votre adresse IP reste donc confidentielle. En outre, vous pouvez utiliser proxys avec le module requests de Python et effectuer diverses actions en fonction de vos besoins. Si vous avez besoin d'une IP statique avec la vitesse d'un centre de données proxys et l'anonymat élevé d'une adresse résidentielle proxys, alors proxys statique est la meilleure solution car l'adresse IP reste inchangée à chaque nouvelle demande. En revanche, les adresses tournantes proxys offrent des avantages pour les tests et le scraping.