Indexer un site web avec le Crawler

Apprenez comment transformer l’intégralité d’un site internet en base de connaissances pour votre chatbot, sans avoir à copier-coller le texte manuellement.

Introduction

Le Crawler Web (ou robot d’indexation) de DoxyChat est un outil puissant qui navigue sur une page ou un site entier pour en extraire le texte, nettoyer les éléments inutiles (publicités, menus, pieds de page) et l’enseigner à votre intelligence artificielle.

C’est la solution idéale si votre documentation est en ligne, ou pour permettre à votre chatbot de connaître vos produits et services directement depuis votre vitrine.

Les deux modes d’importation

Lorsque vous ajoutez une source Web, deux options s’offrent à vous :

1. Mode “Page Unique”

DoxyChat va lire uniquement l’URL précise que vous lui donnez. Il ne cliquera sur aucun lien.

Usage recommandé : Pour ajouter un article de blog spécifique, une page de “Conditions Générales”, ou une page de prix, sans polluer le chatbot avec le reste du site.

2. Mode “Site Entier” (Récursif)

DoxyChat commence par l’URL fournie (généralement la page d’accueil), puis part à la découverte de toutes les sous-pages du site pour construire une connaissance globale.

Usage recommandé : Pour indexer toute votre documentation technique, votre centre d’aide ou votre catalogue produit.

Comment fonctionne la découverte automatique ?

Notre Crawler est conçu pour être “intelligent” et trouver le maximum de pages pertinentes en un minimum de temps. Il utilise une stratégie hybride :

Recherche de Sitemap (Prioritaire) : Le robot cherche d’abord si votre site possède un fichier “plan” (sitemap.xml). C’est la méthode la plus fiable car elle lui donne la liste exacte des pages que vous souhaitez référencer.
Exploration des liens (Fallback) : Si aucun plan n’est trouvé, le robot analyse la page d’accueil et suit tous les liens internes (ceux qui pointent vers le même domaine). Il navigue de page en page jusqu’à avoir tout cartographié ou atteint votre limite.

Note technique : Notre crawler est capable de lire les sites modernes et complexes (JavaScript, React, etc.) grâce à une technologie d’auto-réparation qui simule un navigateur réel si nécessaire.

Gestion des Quotas et Limites

L’importation d’un site entier peut représenter un grand volume de données. DoxyChat intègre des sécurités pour respecter votre abonnement :

Calcul prédictif des “slots”

Avant de lancer l’exploration, le système calcule combien de documents vous pouvez encore ajouter selon votre plan (Découverte, Starter, Pro…).

Exemple : Si votre plan autorise 50 documents et que vous en avez déjà 10, le Crawler indexera au maximum 40 pages du site web.

Arrêt automatique

Dès que la limite est atteinte, le Crawler s’arrête proprement. Les pages déjà indexées sont conservées et actives. Vous recevrez une notification indiquant que l’importation est partielle faute d’espace suffisant.

Filtrage intelligent

Pour économiser vos quotas et améliorer la qualité des réponses, notre robot :

Ignore les pages techniques inutiles (paniers, comptes utilisateurs, pages d’administration).
Priorise le contenu récent (année en cours) sur les sites d’actualités pour éviter d’archiver des articles obsolètes.

Procédure d’ajout

Allez dans l’onglet Sources de votre chatbot.
Sélectionnez l’option Site Web.
Entrez l’URL de départ (ex: https://monsite.com).
Choisissez le mode : Page unique ou Site entier.
Cliquez sur Lancer l’importation.

Les pages apparaîtront progressivement dans votre liste de sources au fur et à mesure de leur découverte et de leur traitement.