Crawler

Libérez votre contenu web avec le Crawler Algolia

Rendez votre contenu facilement accessible grâce à notre crawler web hébergé et personnalisable qui catalogue et stocke les pages web de votre site.

Commencez gratuitement
Obtenir une démo
Liberate web content with crawler

Comment notre crawler web fonctionne-t-il ?

Un outil d’indexation pour découvrir tout votre contenu où qu'il soit stocké

Features_provide your users

Offrez à vos utilisateurs une excellente expérience de recherche sur site

Le contenu de votre site web est-il cloisonné dans des systèmes distincts et géré par des équipes différentes ? La première étape pour offrir une expérience de recherche de haute qualité consiste à mettre en place un processus d’indexation de premier ordre.

Notre robot d’indexation peut vous faire gagner du temps et réduire vos dépenses en éliminant le besoin de construire des data pipelines entre chacun de vos répertoires de contenu et votre logiciel de recherche ainsi que la gestion de projet que cela implique.

Features_Turn your site

Transformez votre site en contenu structuré

Vous pouvez indiquer à notre crawler de site la manière dont doit il fonctionner pour interpréter correctement votre contenu. Par exemple, en plus de pages web standard vous pouvez offrir aux utilisateurs la possibilité de de rechercher et de naviguer dans des articles d’actualité, des offres d’emploi et des rapports financiers, y compris des informations contenues dans des documents, des PDF, du HTML et du JavaScript.

Features_You dont need to add

Vous n’avez pas besoin d’ajouter de balises méta

Vous pouvez faire extraire votre contenu sans préalablement ajouter de balises méta à votre site. Notre crawler web ne s’appuie pas sur des métadonnées personnalisées. Au lieu de cela il fournit à votre équipe technique un éditeur ergonomique pour définir le contenu que vous voulez extraire et la manière dont le structurer.

Features_Enrich your content

Enrichissez votre contenu pour le rendre plus pertinent

Pour améliorer la pertinence des résultats de recherche, vous pouvez enrichir le contenu extrait avec des données business, provenant notamment de Google Analytics et Adobe Analytics. Pour améliorer la pertinence des résultats de recherche, vous pouvez enrichir le contenu extrait avec des données business, provenant notamment de Google Analytics et Adobe Analytics.

Configurez votre crawler selon vos besoins

Features_Schedule automatic

Programmation des sessions d’indexation automatique

Vous pouvez configurer notre outil d’indexation de site pour qu’il examine vos données web selon un calendrier en temps réel, par exemple tous les soirs à 21 heures, avec un nouveau processus d’indexation à midi le lendemain.

Features_Manually set up

Configuration manuelle d’une indexation

Si nécessaire, vous pouvez déclencher manuellement l’indexation d’une section particulière de votre site web, voire de l’ensemble de celui-ci.

Features_Tell it where to go

Définition du chemin à suivre

Vous pouvez définir les parties de votre site ou les pages web que vous souhaitez voir indexer (ou éviter) par notre robot d’indexation, ou vous pouvez le laisser explorer automatiquement toutes les pages.

Features_Give permisson

Gestion des permissions

Configurez notre crawler pour explorer et indexer les pages protégées par des identifiants de connexion.

Mettez à jour votre contenu à indexer

Features_URL inspector

Inspecteur d’URL

Dans l’onglet Inspecteur vous pouvez voir et inspecter toutes vos URL indexées, suivre le statut de chaque indexation, leur complétion et les enregistrements qui ont été générés.

Features_Monitoring

Monitoring

Dans l’onglet Monitoring vous pouvez afficher les détails de la dernière indexation et trier les URL indexées par statut (succès, ignoré, échec).

Features_Data Analysis

Analyse des données

Dans l’onglet Analyse des données, vous pouvez évaluer la qualité de l’index généré par votre crawler et voir s’il manque des attributs à certains enregistrements.

Features_Path Explorer

Path Explorer

Dans l’onglet Path Explorer vous pouvez voir les chemins que le crawler a explorés et pour chacun, combien d’URL ont été explorées, combien d’enregistrements ont été extraits et combien d’erreurs ont été reçues pendant le processus d’indexation.

Les plus grandes entreprises utilisent Algolia

Legalzoom
Nous avons réalisé que la recherche devait être une compétence essentielle de LegalZoom et nous voyons Algolia comme un produit générateur de revenus.

Mrinal Murari

Tools team lead & senior software engineer @ LegalZoom
Lire l'étude de cas

Contenu recommandé

What is a web crawler?

What is a web crawler?

A web crawler is a bot—a software program—that systematically visits a website, or sites, and catalogs the data it finds.

30 days to improve our Crawler performance by 50%

30 days to improve our Crawler performance by 50%

This article is about how we reworked the internals of our app crawler, looked for bottlenecks, and streamlined tasks to optimize the processing of this complex parallel & distributed software.

Algolia Crawler

Algolia Crawler

An overview of what the Algolia Crawler can do for your website.

See more

FAQ: Crawler

  • Un robot d’indexation (ou « crawler ») est un logiciel qui collecte et indexe des données sur le web (technique également appelé « web scraping ») afin de les mettre à la disposition des personnes qui utilisent un moteur de recherche pour trouver des informations.

    Un crawler de sites web y parvient en visitant un ou plusieurs sites web, en téléchargeant des pages web et en suivant assidûment les liens sur les sites pour découvrir tout contenu nouvellement créé. Le robot d’indexation de site catalogue les informations qu’il découvre dans un index.

    Il existe plusieurs types de crawler de sites web. Certains crawler trouvent et indexent des données sur l’ensemble d’Internet (le système mondial d’information sur les sites web s’appelle « World Wide Web »). Parmi les crawler connus et répandus, citons Googlebot, Bingbot (  le moteur de recherche de Microsoft Bing), Baidu Spider (Chine) et Yandex (Russie). En outre, de nombreux robots d’indexation plus petits et moins connus concentrent leurs processus d’indexation sur l’exploration de certains types de données web, comme les images, les vidéos ou les e-mails.

  • Un robot d’indexation de base de données est un type spécifique de robot d’indexation web qui analyse et catalogue les informations stockées dans les tableaux d’une base de données. Une fois ces informations cataloguées, elles peuvent être trouvées en utilisant des moteurs de recherche. 

    Les différents types de bases de données nécessitent une configuration différente pour que le robot d’indexation puisse extraire leurs informations de manière intelligente. Précisez le type de données et de champs à indexer puis déterminez le calendrier d’indexation.

    Un robot d’indexation de base de données traite chaque ligne d’un tableau comme un document distinct, en analysant puis en indexant les valeurs des colonnes comme des champs cherchables. 

    Un robot d’indexation de base de données peut également être configuré pour indexer différents tableaux à l’aide d’un plug-in. Dans une base de données relationnelle, cela permet de joindre les lignes de plusieurs tableaux dotés de mêmes champs clés et de les traiter comme un seul document. Ensuite, lorsque le document est affiché dans les résultats de recherche, les données des tableaux joints apparaissent comme des champs supplémentaires.

  • Comme tout autre contenu web, le sitemap XML d’un site web peut être indexé par un robot d’indexation web. Si un site web contient l’URL du sitemap dans son fichier robots.txt, le sitemap sera automatiquement indexé. Toutefois, vous pouvez également télécharger et indexer séparément les URL du sitemap XML à l’aide d’un outil tel que Screaming Frog. 

    Pour convertir un fichier sitemap dans un format indexable par un programme comme Screaming Frog, il faut   importer le fichier dans Microsoft Excel et copier les URL dans un fichier texte.

    Si un sitemap contient des « saletés », c’est-à-dire des pages obsolètes qui entraînent des erreurs de code de réponse d’en-tête (telles que 404), des redirections ou des erreurs d’application, les données remontées et indexées par un robot d’indexation, puis mises à la disposition des moteurs de recherche peuvent être sujettes à des erreurs. C’est pourquoi il est judicieux de consacrer les efforts nécessaires à l’indexation d’un sitemap puis de corriger les problèmes éventuels.

    Comment savoir si votre sitemap contient des "saletés" ? Dans la rubrique « Outils Google pour les webmasters », la section « Sitemaps » vous indique à la fois le nombre de pages soumises dans le sitemap et le nombre de pages indexées. Le rapport doit être d’environ 1 pour 1. Si le rapport entre le nombre de pages indexées et le nombre de pages soumises est faible, il peut y avoir des erreurs dans les URL du sitemap.


  • L’objectif d’un programme d’indexation du Web est d’explorer des pages web, de découvrir et d’extraire des données, puis de les indexer afin qu’elles soient accessibles aux personnes utilisant un moteur de recherche. Un robot d’indexation de site web remplit cette mission en examinant systématiquement un ou plusieurs sites web, en téléchargeant ses pages web et en suivant ses liens pour identifier tout nouveau contenu. L’outil d’indexation du site catalogue ensuite les informations qu’il découvre dans un index cherchable afin d’être rapidement récupérées.

  • L’indexation du Web consiste à demander à un logiciel (un « bot ») d’explorer systématiquement les sites web et d’indexer les données qu’il trouve, afin de faciliter leur localisation par les internautes à l’aide d’un moteur de recherche.

    Le web scraping, une forme légèrement différente de collecte de données sur le web, consiste à collecter (télécharger) des types d’informations spécifiques, par exemple sur les prix. 

    Dans le domaine de l’e-commerce, ces deux types de collecte de données sont particulièrement utiles, car les données recueillies et analysées peuvent conduire les responsables du marketing à prendre des décisions fondées sur des données qui peuvent stimuler les ventes. 

    Les spécialistes du marketing peuvent comparer les données relatives aux produits vendus sur d’autres sites avec celles des produits qu’ils vendent, par exemple.

    S’ils découvrent que les acheteurs saisissent régulièrement certains mots clés dans un moteur de recherche pour localiser un produit donné, ils peuvent décider d’ajouter ces mots à la description du produit pour attirer les acheteurs potentiels vers la liste de produits.

    Les consommateurs souhaitent généralement bénéficier des meilleures offres, et ils peuvent facilement rechercher les prix les plus bas sur le Web. Si une entreprise constate qu’un concurrent propose un prix inférieur pour un produit qu’elle offre également, elle peut baisser son propre prix pour s’assurer que les clients potentiels ne choisiront pas celui du concurrent uniquement en raison d’un coût inférieur. 

    En recueillant des données sur les évaluations et le classement des produits, les spécialistes du marketing et les commerciaux peuvent découvrir des informations sur les défauts de leurs produits et de ceux de leurs concurrents.

    Ils peuvent également utiliser la technologie d’indexation pour surveiller les avis et les classements des produits, afin de pouvoir réagir rapidement lorsque les gens publient des commentaires négatifs, et améliorer ainsi le Service clientèle.

    Ils peuvent découvrir les produits qui se vendent le mieux et identifier potentiellement de nouveaux marchés propices.

    Toutes ces activités ayant un impact sur les revenus du secteur de l’e-commerce font de l’indexation et du web scraping un sous-domaine important et lucratif.