I crawler: come funzionano e come gestirli

Breve guida per conoscere i crawler e gli elementi del file robot.txt

Con il termine crawler si stanno ad indicare dei programmi o script automatici che vengono utilizzati dalla maggior parte dei motori di ricerca (come Google o Bing) per eseguire una scansione dei siti web in modo da indicizzarne i contenuti. Attraverso una scansione continua della rete i motori di ricerca possono così fornire risultati di ricerca aggiornati praticamente in tempo reale.

Tuttavia una “visita costante” dei siti da parte dei motori di ricerca può in alcuni casi portare anche a diverse centinaia di richieste al minuto. Tale attività potrebbe mettere sotto stress il vostro server causando talvolta eccessiva lentezza nel caricamento delle pagine e nei casi peggiori non raggiungibilità del vostro sito web.

Per evitare che ciò accada è possibile fornire delle istruzioni ai crawler dei motori di ricerca ed escluderne alcuni se non siete interessati alla loro indicizzazione. Una pratica molto comune consiste quindi nell’inserire alcune regole all’interno del file robots.txt

Una di queste, può essere la direttiva Crawl-delay che permette di indicare il numero di secondi da attendere tra una richiesta e quella successiva.

Accedi

Registrati | Password dimenticata?