Le logiciel Scrapebox permet d’automatiser de nombreuses tâches sur internet : URL, data, link, DoFollow et indexing status scraping. Voici comment, pas à pas, procéder à ces manipulations.

Ces indications concernent la version 2 du logiciel Scrapebox. Pour chaque tâche nécessitant un “addon”, avant sa première utilisation téléchargez l’addon en question en vous rendant sur “Addons”, “show available Addons”, cliquez ensuite sur les noms des addons concernés et cliquez sur “install addon”.

Récupérer les URLs correspondantes aux résultats d’une ou plusieurs recherche(s)

Avec Scrapebox, vous pouvez lancer des recherches sur un ou plusieurs moteur(s) de recherche(s), à partir d’un ou plusieurs mot(s) clé(s) et y associer un ou plusieurs footprint*. Scrapebox vous donne alors les URLs correspondantes aux résultats de recherche. 

Dans le premier encadré en haut à gauche, tapez la partie de la requête qui est commune à chaque recherche que vous souhaitez que Scrapebox effectue. Juste en dessous listez l’ensemble de vos mots clés. Par exemple vous pouvez taper en haut : “powered by WordPress” intitle: puis, en dessous l’ensemble des mots clés que vous souhaitez avoir dans le titre de vos résultats : mutuelle, assurance, crédit… 
Dans la partie inférieure gauche, cochez la case “use proxies” et indiquez dans “results” le nombre de résultats que vous souhaitez obtenir par requête. 
Le nombre d’URLs dépend du nombre de résultats et du nombre de proxies utilisés mais il est limité à 1 000 par mot clé. Pour dépasser cette limite, on peut utiliser des opérateurs Google en plus. Par exemple : ‘inurl:.fr keyword’ + ‘inurl:.com keyword’… (utilisez .fr .com .net .gouv .edu .info .org et des extensions de pays francophones si besoin : .ca .be .ch). Si l’on veut encore plus de résultat on peut rajouter intitle:a puis intitle:b etc. avec l’ensemble de l’alphabet. 
Avec cette méthode vous obtiendrez un grand nombre de doublons, vous pourrez alors demander à Scrapebox d’enlever les “duplicates url” et même les “duplicates domains” si vous ne souhaitez conserver qu’une URL par domaine. 

Ensuite, entrez la liste de vos proxies (avec “load”), cliquez sur “manage”, “test proxies” puis “test all proxies”. 
Une fois le test effectué, cliquez sur “filter”, “keep proxies which passed the anonymous & Google / custom Test”. Cliquez sur “Save proxies”, “save all to scrapebox proxy list” et enfin “close”. Vous conservez alors que les proxies que Google n’a pas blacklisté. 

Au centre de l’écran cliquez maintenant sur “start harvesting”. Dans la fenêtre qui apparaît, sélectionnez les moteurs de recherches que vous souhaitez utiliser (attention la plupart des opérateurs Google ne fonctionnent qu’avec Google). En bas à gauche dans “delay in seconds” indiquez “1”, chaque requête sera alors faite avec un intervalle d’une seconde afin de prolonger la durée de vie de vos proxies. Enfin cliquez sur “start”. 

Une fois le travail terminé, retournez sur la page principale de scrapebox, l’ensemble des URLs trouvés sont maintenant dans la section “url’s harvested”, vous pouvez supprimer les URLs ou domaines dupliqués à l’aide du menu “remove / filter” sur la droite. Pensez ensuite à exporter les URLs pour les enregistrer.

* Un footprint est un ensemble de mots propres à un type de site, à un CMS. Par exemple « powered by WordPress” vous donnera que des sites qui ont été réalisés avec WordPress. Le but est de trouver un CMS facilement commentable en DoFollow (mais pas trop spammé non plus), de trouver un footprint correspondant et d’insérer ce footprint dans ses requêtes scrapebox. Voici des exemples de footprint. Ils ne fonctionnent que moyennement car ils sont trop utilisés. Le mieux est de trouver des footprints par sois-même, en regardant ce qu’ont en commun les récents backlinks DoFollow de sites réputés pour spammer (serruriers, mutuelles, assurances, viagras…) avec ahreafs ou Majestic SEO. Ainsi vous êtes sûr d’avoir des sites commentables enDoFollow et dont la validation se fait toujours (le site n’est pas abandonné). En procédant ainsi, vous obtenez également la manière dont les commentaires doivent être faits pour être validés (est-ce qu’il faut rédiger ses liens en HTML, en BBcode ou en texte…).

Scrapper des adresses mail, numéros de téléphone ou images

Scrapebox dispose d’un outil intégré pour extraire l’ensemble des adresses mailnuméros de téléphone ou images trouvés sur une page précise : 
Importez les URLs concernées, cliquez sur “grab / check” puis sur “grab emails from url list” (ou “grab phone numbers from harvested url list” si vous souhaitez avoir les numéros ou encore “grab images from…” pour scraper les images). Une fenêtre s’ouvre, cliquez sur “start”. Une fois terminé, cliquez sur “export” pour consulter les résultats. 

Scrapebox peut également crawler (“fouiller”) plusieurs pages d’un site afin de récupérer l’ensemble des adresses mail présentes sur ce site. 
Importez les URLs concernées puis cliquez sur “grab / check” et “grab emails by crawling sites”. Dans la fenêtre qui s’ouvre, cochez : “use harvested urls” et indiquez en face de “level” le nombre de “niveau de site” que vous voulez que scrapebox parcourt. Les niveaux se comptent à partir du nom de domaine. Avec un seul niveau, Scrapebox fouillera les pages qu’il trouve dont l’URL correspond à nomDeDomaine.com/quelquechose avec deux niveaux : nomDeDomaine.com/quelquechose/quelquechose etc. Le nombre de niveaux correspond on nombre de slashs « / » présents dans l’URL des pages. Cliquez sur “start”. Exportez ensuite les résultats. 

Pour scraper des mails, l’outil n’utilise pas Google, il se rend directement sur le site. Il n’est donc pas nécessaire d’utiliser de proxys, sauf s’il s’agit d’un gros site corporate, sûrement protégé, limitant le nombre de requêtes par adresse IP pour éviter le scraping de leurs données.

Scrapebox permet d’extraire facilement l’ensemble des liens présents sur un site : 
Importez les URLs des pages dont vous souhaitez obtenir les liens, cliquez sur “Addons” (dans le menu) puis “Scrapebox Link Extractor 64-bit”, cliquez sur “Load” > “load url list from scrapebox harvester”. Vous pouvez ensuite demander à n’avoir que les liens internes, ou qu’externes ou encore les deux. Vous pouvez également ne conserver que ceux en DoFollow. Cliquez alors sur « start ». 
N’oubliez pas d’exporter les résultats.

Vérifier la présence d’un lien en DoFollow sur plusieurs url

Les liens « DoFollow » sont les seuls liens qui comptent réellement en SEO. Ceux sont les seuls pris en compte par les algorithmes d’indexation des moteurs de recherche. Il est donc primordial de vérifier la quantité et la qualité des liens DoFollow pointants vers votre site. C’est indispensable pour une solide stratégie de linking. Scrapebox permet ainsi de vérifier la présence d’un lien en DoFollow sur plusieurs url. Vous pouvez alors rapidement vérifier la qualité des liens effectués lors d’échanges de liens, d’échange d’article, de link baiting… Voici la démarche : 
Importez les URLs des pages sur lesquelles vous voulez vérifier la présence d’un lien en DoFollow, cliquez sur “addons”, choisissez “Scrapebox DoFollow test”, cliquez sur “load urls”, “load from Scrapebox harvester”, indiquez l’URL du lien supposé dans “website to test” et cliquez sur “Start”. 
N’oubliez pas d’exporter les résultats. Si vous ne connaissez pas les URLs précisent sur lesquelles les liens vers vos sites sont sensés se trouver, vous pouvez crawler tout le site avec Scrapebox. 
Vous devez tout d’abord crawler le site pour extraire l’ensemble de ses URLs. Pour ce faire, cliquez dans le menu à droite sur “Grab / Check”, »Grab links by crawling a site », taper l’URL du domaine du site concerné, indiquez les nombres de niveaux de site à crawler puis cliquez sur « start ». Scrapebox vous donne alors toutes les URLs des pages du site en question. Vous pouvez maintenant utiliser l’addon “Scrapebox DoFollow test” pour vérifier la présence de votre URL sur l’ensemble du site.

Savoir quelles pages de votre site sont indexées et lesquelles ne le sont pas

Si votre site possède de nombreuses pages et que vous souhaitez savoir précisément lesquelles sont indexées par Google / Yahoo / Bing, il y a un outil Scrapebox pour ça ! 
Importez la liste des URLs de vos pages, si vous n’avez pas de telle liste, jetez un oeil au dernier paragraphe de la section sur le DoFollow scraping. Une foi votre liste importée, choisissez “check indexed” dans le menu de droite, sélectionnez le moteur de recherche sur lequel vous souhaitez vérifier l’indexation de vos pages. Cliquez sur “start”, vous pouvez ensuite exporter les résultats.

Scrapebox dispose également d’un outil permettant de laisser automatiquement des commentaires sur un site mais cet outil est peu fiable, je ne le recommande pas. Pour chaque tâche que vous voulez que Scrapebox effectue, demandez-vous s’il utilisera Google. S’il se servira de Google il faut alors utiliser des proxies pour cacher votre adresse IP et ainsi éviter que Google limite le nombre de requêtes effectuées. Pour augmenter la durée de vie des proxies, il faut utiliser le mode “monothread” plutôt que “multithread” : il s’agit d’indiquer que les différentes requêtes ne doivent pas être effectuées en même temps mais plutôt d’attendre au moins une seconde entre chaque requête. Astuce : L’outils qui supprime les URLs ou domaines dupliqués peut être utilisé pour une liste d’URLs obtenue ailleurs que sur Scrapebox. 

Ca y est vous avez le grade de scrapeur pro !

 

Vous avez besoin d’aide dans l’utilisation du logiciel Scrapebox ? Contactez-nous directement !

Catégories : SEO

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *