Comment récupérer Reddit à l'aide de Python

Il existe cinq façons de récupérer Reddit, et elles sont les suivantes :

Scraping manuel - C'est la méthode la plus simple mais la moins efficace en termes de rapidité et de coût. Cependant, elle permet d'obtenir des données très cohérentes.
Utilisation de l'API Reddit - Vous devez avoir des compétences de base en codage pour récupérer Reddit à l'aide de l'API Reddit. Elle fournit les données mais limite le nombre de messages dans un fil de discussion Reddit à 1000.
API tierces enrobées de sucre - Il s'agit d'une approche efficace et évolutive, mais elle n'est pas rentable.
Outils d'exploration du Web - Ces outils sont évolutifs et ne requièrent qu'une connaissance de base de l'utilisation d'une souris.
Scripts de scraping personnalisés - Ils sont hautement personnalisables et évolutifs mais requièrent un haut niveau de programmation.

Voyons comment nous pouvons récupérer Reddit en utilisant l'API Reddit à l'aide des étapes suivantes.

Créer un compte API Reddit

Vous devez créer un compte Reddit avant de continuer. Pour utiliser PRAW, vous devez vous inscrire à l'API Reddit en suivant ce lien.

Importer des paquets et des modules

Tout d'abord, nous allons importer les modules intégrés de Pandas, c'est-à-dire datetime, et deux modules tiers, PRAW et Pandas, comme indiqué ci-dessous :

import praw
import pandas as pd
import datetime as dt

Obtenir des instances Reddit et subreddit

Vous pouvez accéder aux données Reddit en utilisant Praw, qui signifie Python Reddit API Wrapper. Tout d'abord, vous devez vous connecter à Reddit en appelant la fonction praw.Reddit et en la stockant dans une variable. Ensuite, vous devez passer les arguments suivants à la fonction.

reddit = praw.Reddit(client_id='PERSONAL_USE_SCRIPT_14_CHARS', \N-secret_client='SECRET_CLEY_27_CHARS', \N
                    client_secret='SECRET_KEY_27_CHARS ', \N- user_agent='YOUR_APP_NAME', \N
                    user_agent='YOUR_APP_NAME', \N- user_agent='YOUR_APP_NAME', \N
                    username='VOTRE_NOM_D'UTILISATEUR_REDDIT', \N- Mot de passe='VOTRE_NOM_D'UTILISATEUR_REDDIT', \N
                    password='VOTRE_REDDIT_LOGIN_PASSWORD')

Maintenant, vous pouvez obtenir le subreddit de votre choix. Appelez donc l'instance .subreddit de reddit (variable), et passez le nom du subreddit auquel vous voulez accéder. Par exemple, vous pouvez utiliser le subreddit r/Nootropics.

subreddit = reddit.subreddit('Nootropics')

Accéder aux fils

Chaque subreddit dispose des cinq façons différentes d'organiser les sujets créés par les Redditors :

.nouveau
.chaud
.controversé
.doré
.top

Vous pouvez consulter les sujets les plus votés :

top_subreddit = subreddit.top()

Vous obtiendrez un objet de type liste contenant les 100 meilleures soumissions dans r/Nootropics. Cependant, la limite de requête de Reddit est de 1000, vous pouvez donc contrôler la taille de l'échantillon en passant une limite à .top as :

top_subreddit = subreddit.top(limit=600)

Analyse et téléchargement des données

Vous pouvez récupérer toutes les données que vous souhaitez. Cependant, nous allons récupérer les informations suivantes sur les sujets :

id
titre
score
date de création
corps du texte

Pour ce faire, nous stockerons nos données dans un dictionnaire, puis nous utiliserons une boucle for, comme indiqué ci-dessous.

topics_dict = { "title":[], \
                "score":[], \
                "id":[], "url":[], \
                "created": [], \
                "body":[]}

Nous pouvons maintenant extraire les données de l'API Reddit. Nous ajouterons les informations à notre dictionnaire en parcourant notre objet top_subreddit.

pour soumission dans top_subreddit :
    topics_dict["id"].append(submission.id)
    topics_dict["title"].append(submission.title)
    topics_dict["score"].append(submission.score)
    topics_dict["created"].append(submission.created)
    topics_dict["body"].append(soumission.selftext)

Nous plaçons maintenant nos données dans des Pandas Dataframes, car les dictionnaires Python ne sont pas faciles à lire.

topics_data = pd.DataFrame(topics_dict)

Exporter CSV

Il est très facile de créer des fichiers de données dans différents formats avec Pandas. Nous utilisons donc les lignes de code suivantes pour exporter nos données vers un fichier CSV.

topics_data.to_csv('FILENAME.csv', index=False)

Meilleur Reddit proxys de 2021

Vous savez que Reddit n'est pas un site très strict en ce qui concerne les restrictions d'utilisation de proxy. Mais vous pouvez être pris et pénalisé si vous automatisez vos actions sur Reddit sans utiliser proxys.

Examinons donc quelques-uns des meilleurs sites proxys pour Reddit, qui se répartissent en deux catégories :

Residential proxys - Il s'agit des adresses IP que le fournisseur d'accès à Internet (FAI) attribue à un appareil situé à un endroit précis. Ces adresses proxys révèlent l'emplacement réel de l'appareil que l'utilisateur utilise pour se connecter à un site web.

Datacenter proxys - Il s'agit de diverses adresses IP qui ne proviennent d'aucun fournisseur de services Internet. Nous les acquérons auprès d'un fournisseur de services en nuage.

Voici quelques-uns des meilleurs sites résidentiels et centres de données proxys pour Reddit.

Smartproxy

Smartproxy est l'un des meilleurs fournisseurs de proxy résidentiel premium car il est efficace pour l'automatisation de Reddit. Il dispose d'un vaste pool d'IP et fournit un accès à toutes les IP une fois que vous vous abonnez à son service.

Stormproxy

Les prix et la bande passante illimitée des Stormproxies en font un bon choix. Ils sont abordables et peu coûteux à utiliser. Ils ont proxys pour différents cas d'utilisation et fournissent le meilleur proxys résidentiel pour l'automatisation de Reddit.

ProxyScrape

ProxyScrape est l'un des fournisseurs de services proxy les plus populaires qui se concentre sur l'offre de proxys pour le scraping. Il propose également un centre de données dédié proxys ainsi qu'un centre de données partagé proxys. Il dispose de plus de 40k centres de données proxys que vous pouvez utiliser pour récupérer les données des sites Web sur Internet.

ProxyScrape fournit trois types de services à ses utilisateurs, à savoir..,

Centre de données Premium proxys

Résidentiel proxys

Dédié proxys

Proxies élevées

Highproxies travaille avec Reddit et a les catégories suivantes de proxys:

Partagé proxys
Privé proxys
Sites classés proxys
Billetterie proxys
Les médias proxys

Proxies instantanées

Vous pouvez également utiliser Instantproxies pour l'automatisation de Reddit, car ils sont très sûrs, fiables, rapides et ont un temps de disponibilité d'environ 99,9 %. Ils sont les moins chers de tous les centres de données proxys.

Pourquoi utiliser Reddit proxys?

Vous avez besoin de proxys lorsque vous travaillez avec des outils automatiques sur Reddit. En effet, Reddit est un site web très sensible qui détecte facilement les actions automatiques et bloque l'accès de votre IP à la plateforme. Ainsi, si vous automatisez certaines tâches telles que les votes, les messages, l'adhésion/désaffiliation à des groupes et la gestion de plusieurs comptes, vous devez impérativement utiliser proxys pour éviter tout problème.

Solutions alternatives pour scraper Reddit

Vous pouvez opter pour le scraping manuel si vos besoins en scraping Reddit sont limités. Mais si les besoins sont importants, vous devez tirer parti de méthodologies de scraping automatisées telles que les outils de scraping web et les scripts personnalisés. Les outils de scraping web s'avèrent efficaces en termes de coûts et de ressources lorsque vos besoins quotidiens en scraping ne dépassent pas quelques millions de posts.

Nous allons donc nous pencher sur quelques-uns des meilleurs scrapers Reddit, qui constituent la meilleure solution pour récupérer de grandes quantités de données Reddit.

Grattoir

Scrapestorm est l'un des meilleurs outils de scraping disponibles sur le marché, car il fonctionne très bien lorsqu'il s'agit de scraper Reddit. Il utilise l'intelligence artificielle pour identifier automatiquement les points de données clés de la page web.

Le scraper Reddit d'Apify

Le scraper Reddit d'Apify vous permet d'extraire facilement des données sans utiliser l'API Reddit. Cela signifie que vous n'avez pas besoin d'un jeton API de développeur ni d'une autorisation de Reddit pour télécharger les données à des fins commerciales. Vous pouvez également optimiser votre scraping en utilisant le service proxy intégré de la plateforme Apify.

Conclusion

Nous avons discuté de cinq façons de récupérer les données de Reddit, et la plus simple est d'utiliser l'API Reddit car elle ne nécessite que des compétences de codage de base. PRAW est un wrapper Python pour l'API Reddit qui vous permet d'utiliser une API Reddit avec une interface Python propre. Mais lorsque vous avez des besoins importants en matière de scraping Reddit, vous pouvez extraire des données accessibles au public à partir du site web Reddit à l'aide de scrapers Reddit. Pour automatiser vos actions sur le site web Reddit, vous devez utiliser un centre de données ou un site résidentiel proxys.

Par : ProxyScrape

Comment récupérer Reddit à l'aide de Python

Table des matières

Pourquoi avez-vous besoin de scraper Reddit ?

Les défis du scraping de Reddit