Onboarding: Data Pipeline & Indexing sprint - Onboarding

Conception des flux de données

Dans ce sprint, vous allez concevoir vos flux de données : vous allez définir la donnée que vous allez synchroniser avec Algolia et à quelle fréquence vous la mettez à jour. A la fin de ce sprint, vous aurez l’intégralité de vos données disponibles dans votre application Algolia sous la forme de différents index. Une fois les tâches ci-dessous accomplies, vous pourrez passer au sprint suivant.

Pipeline de données et indexation d'images — S'inscrire aux webinaires et visionner les enregistrements (en anglais)

Membres de l'équipe

Selon la taille de votre entreprise, certains de ces rôles peuvent être assurés par la même personne. Dans ce sprint, il est important d'identifier les personnes suivantes et de les solliciter.

Chef de projet

Planifier et gérer le projet

Architecte systèmes

Analyser et concevoir les composants nécessaires au produit

Ingénieurs back-end

Construire la logique métier des applications, et les interactions entre les systèmes.

Pour commencer, un bon réflexe est de revoir les mock-ups (maquettes) que vous avez créés au sprint précédent et identifier tous les types de données qui y sont inclus. Par exemple, incluez vous des articles, des produits, ou encore une FAQ dans vos maquettes ? Tous les types de données que vous souhaitez inclure doivent avoir leur propre index (catalogue de contenu) dans Algolia.

Parmi les types de données à indexer, il y a 4 types d’attributs à inclure : la donnée recherchable, la donnée filtrable, la donnée d’affichage et enfin la donnée métier.

La donnée métier inclut toute métrique qui a de l’importance pour votre stratégie de classement des résultats de recherche.

Parmi la donnée métier, on pourra par exemple trouver : le nombre de ventes sur les 7 derniers jours glissants, le nombre de clics sur un contenu, la marge nette de vos produits, la date de sortie d’un contenu, la position géographique par rapport à l’utilisateur, etc.

Maintenant que vous connaissez les types de données à synchroniser dans Algolia, il vous faut penser à la structuration de cette donnée et sa fréquence de synchronisation.

Les bonnes pratiques sont couvertes dans ce webinar, qui aborde également la gestion de différentes stratégies de classement, telles que les index de tris (tri par prix croissant, …). Il est possible que votre donnée nécessite une certaine transformation avant de pouvoir être indexée dans Algolia. Certains cas d’usages, tels que la gestion de différents langages nécessitent aussi une stratégie d'indexation spécifique.

A ce stade, il est recommandé de créer un diagramme documentant les flux, les systèmes traversés par ces flux, la fréquence de leurs passages.

Les outils que vous devez utiliser pour créer vos flux de données dépendent des systèmes dans lesquels vos données sont stockées. Pour chaque type de donnée, vous devez identifier le système auquel vous devez accéder et vous référer à la section appropriée ci-dessous.

Connecteurs prêts à l’emploi

Supporté par Algolia :

Shopify

La première étape de l’implémentation d’une intégration Shopify est de lancer une réindexation complète. Une fois que vous avez validé votre compte Algolia, vous pouvez la déclencher directement. Cela va créer 3 index: products, pages et collections. Si vous souhaitez enrichir ces index avec de la donnée qui provient d’une API ou de systèmes tiers, il est possible d’utiliser les metafields.
Si vous souhaitez les enrichir avec de la donnée présente dans Shopify, utilisez les named tags.
Si vous en avez la possibilité, nous recommandons l'utilisation de named tags plutôt que les metafields, car ces derniers peuvent ralentir le processus d’indexation.

Adobe Commerce (Magento)

La première étape de l’implémentation d’une intégration Adobe Commerce (Magento) est d’installer l’extension Algolia.
Ajoutez ensuite vos informations d’authentification, activez l’indexation et indexez vos premières données vers Algolia.
Si vous avez besoin de transformer la donnée, il vous faudra installer l’extension CustomAlgolia en même temps.

Salesforce Commerce Cloud

La première étape pour la mise en place de l’intégration SFCC est de télécharger, installer et configurer la Cartridge Algolia. Veuillez noter qu’il vous sera peut-être nécessaire de personnaliser les scripts d'indexation de la Cartridge pour importer certaines données spécifiques qui ne seraient pas intégrées par défaut.

Supporté par la communauté :

Si aucune de ces intégrations ne correspond à votre environnement, vous pouvez consulter notre Code Exchange qui contient des intégrations supplémentaires créées par la communauté Algolia ainsi que des développeurs tiers.

Faites-le vous même (Do it yourself)

Si vous n’avez pas la possibilité ou si vous ne souhaitez pas utiliser nos intégrations, vous devrez utiliser nos clients API pour synchroniser vos données dans Algolia.

Les clients API Algolia officiels intègrent toutes les méthodes dont vous avez besoin pour indexer vos données, et ils sont disponibles en PHP, Ruby, Javascript, Python, Swift, Kotlin, Android, .NET, Java, Go et Scala.

Php

Android

Ruby

.NET

Javascript

Java

Python

Golang

Swift

Scala

Kotlin

Laravel

Rails

Symfony

Django

Si le système qui contient vos données à indexer possède un point d’intégration sur lequel vous pouvez utiliser l’un des clients API mentionnés ci-dessus, c’est une solution à favoriser pour votre indexation.

Si vous avez accès aux modifications effectuées sur vos données (deltas), il vous est possible d’utiliser les méthodes addObjects, partialUpdateObjects, et deleteObjects.

Si vous avez accès uniquement à l’intégralité de la base de données, il est possible d’utiliser la méthode replaceAllObjects.

Crawler Algolia

L’utilisation du Crawler Algolia est un bon choix si vous souhaitez indexer du contenu HTML statique. Par exemple, il est un excellent choix si vous souhaitez implémenter de la recherche sur les pages de contenu d’un site internet.

Vous pouvez enrichir (et nous vous le recommandons) le contenu statique collecté par le Crawler avec de la donnée métier utile pour votre stratégie de classement (ranking), qui proviendrait par exemple de Google Analytics ou Adobe Analytics.

Vous avez la possibilité de gérer toutes les configurations en détail dans le Crawler Editor sous forme d’un fichier JSON. Une fois que vos startUrls (URLs de démarrage) et sitemaps sont configurées, vous pouvez lancer le Crawler et utiliser le path explorer et la data analysis pour consulter les URLs qui ont été crawlées et celles qui ne l’ont pas été.

Vous pouvez ensuite mettre à jour la configuration pour vous assurer que toutes les URLs souhaitées sont bien crawlées.

Une fois que toutes les URLs souhaitées sont bien crawlées, vous pouvez configurer la manière dont le Crawler va transformer la donnée en records (éléments unitaires des index, qui sont les catalogues de contenu), à l’aide d’une fonction Javascript dans la configuration.

Maintenant que vos données sont indexées dans Algolia, l’étape suivante créer vos premières configurations de pertinence, afin de pouvoir les tester dans le dashboard. Il y a notamment 3 configurations à réaliser: les searchable attributes (attributs recherchables), les attributes for facetting (facettes), et les attributes to retrieve (attributs à récupérer).

Conception des flux de données

Membres de l'équipe

Identifier toute la donnée qui doit être indexée dans Algolia

Concevoir les flux de données

Construire les flux de données

Connecteurs prêts à l’emploi

Faites-le vous même (Do it yourself)

Crawler Algolia

Configurations initiales de pertinence