Le scraping

Disons-le tout de suite, le scraping fait partie de ces techniques de référencement dites « Black Hat SEO » et que les moteurs de recherche sanctionnent. Cette pratique consiste en gros à extraire les données d’un site via un logiciel automatique ou un programme, et de réutiliser ces données.

Cet article n’a pas pour objectif de vous encourager à faire du scraping. Nous allons plutôt vous expliquer comment fonctionne cette technique, pourquoi on l’utilise, et comment vous en protéger.

Définition du scraping

Le scraping est une technique informatique qui a une utilité multiple. Toutefois, dans le cadre du référencement web, il est généralement utilisé à mauvais escient. En effet, le web scraping est utilisé pour extraire des données d’un site en utilisant un logiciel automatique, un programme ou un autre site.

Les données extraites seront ensuite enregistrées afin qu’elles soient analysées et exploitées de toute autre façon. Cette technique informatique permet la collecte d’informations qui peuvent être de nature différente, comme des :

mots-clés individuels
coordonnées (numéros de téléphone, adresse etc.)
URL

Après analyse, ces informations seront rassemblées dans des tableaux ou des bases de données locales afin d’être exploitées.

Pourquoi faire du scraping

Il a pour objectif d’obtenir du trafic facilement et rapidement grâce au référencement naturel. Il est important de préciser que cette pratique est classée comme étant du Black Hat SEO, et est donc sanctionnée par les moteurs de recherche.

Nous disions plus tôt que le scraping peut avoir plusieurs utilités. Ainsi, il existe des applications de web scraping qui permettent de réaliser de la prospection et/ou de la veille concurrentielle d’entreprise.

Les données récoltées sur un site concurrent grâce à ces applications web seront alors utilisées pour surveiller l’évolution de ses offres ou ses variations de prix. Cela permet par la même occasion la récupération d’un grand nombre de contacts, par exemple sur des réseaux comme LinkedIn.

Pour finir, il est possible de l’utiliser pour un usage personnel. Cette technique informatique vous permet par exemple de récolter les informations de petites annonces, et de les comparer.

Fonctionnement du web scraping

On peut distinguer deux formes de scraping : le scraping manuel, et le scraping automatique.

Le scraping manuel consiste à copier et insérer des informations et des données manuellement. En général, on ne réalise le scraping manuel que pour trouver et enregistrer des informations de façon sporadique. Ce type de processus est difficile à mettre en œuvre, et ne convient généralement pas pour de grandes quantités de données.

Le scraping automatique utilise quant à lui un algorithme ou un logiciel chargé de l’exploration de plusieurs sites web, dans le but d’en extraire des informations. Le type de logiciel utilisé dépend de la nature du site et de son contenu. On distingue différentes méthodes dans le scraping automatique :

Les analyseurs syntaxiques

Un analyseur syntaxique permet de convertir un texte en une nouvelle structure. Par exemple, dans le cadre de l’analyse d’un HTML, l’analyseur syntaxique va lire le document HTML et enregistrer les informations.

Le texte

Pour les personnes qui maîtrisent la ligne de commande, les instructions Unix « grep » peuvent être utilisées pour l’exploration du web, afin de trouver certains termes dans Perl ou Python. Bien que cette méthode exige plus de travail par rapport à l’utilisation d’un logiciel, elle est particulièrement efficace pour obtenir des données.

Les robots

Dans le domaine du web et du SEO, un robot fait référence à un logiciel qui réalise des tâches spécifiques et les automatise. Dans le cadre du web scraping, les robots ont donc pour mission d’explorer des sites web automatiquement, et d’y collecter des données. Ce fonctionnement automatique permet de récolter une très grande quantité de données.

Comment se protéger du scraping ?

Maintenant que vous savez en quoi la technique du scraping consiste, vous voulez sans doute trouver un moyen de protéger vos données. Vous évitez que des référenceurs peu scrupuleux ne les volent et les exploitent.

Vous pouvez prendre différentes mesures pour le bloquer. Par exemple, vous pouvez utiliser le fichier robots.txt pour bloquer l’accès des robots des moteurs de recherche à certaines de vos pages sensibles. Ce fichier empêchera alors par la même occasion le scraping automatique réalisé par les robots logiciels.

Vous avez également comme option de bloquer les adresses IP des robots. Vous pouvez en effet masquer les informations personnelles et les coordonnées de façon ciblée. Sinon, vos données sensibles (comme des numéros de téléphones par exemple) peuvent être renseignées sous forme de CSS ou d’image. Le scraping de vos données se verra alors nettement plus compliqué à réaliser.

Notons que vous pouvez entrer en contact avec des prestataires payants qui fournissent des services anti-robot. Ils peuvent mettre en place un pare-feu pour bloquer le scraping. Pour finir, les Google Search Console peuvent vous envoyer des notifications afin de vous alerter lorsque vos données font l’objet d’un web scraping.