Analyse des applications de type Web Crawler

Par Kenny CÔTÉ et Benjamin HÉROUX-CLÉROUX

Un web crawler collecte les sites internet qui lui semblent le plus probable à la consultation. C'est un programme récursif qui visite une page, trouve les liens et qui refait la même chose avec les nouveaux liens trouvés. Cela permet de limiter le temps de recherche puisque le but premier d'un crawler est de trouver les pages pertinentes puisque c'est impossible de faire indexer Internet au complet. Le robot permet d'indexer et de garder sur son serveur des quantités phénoménales de pages internet. C'est une application de type robot, c'est-à-dire autonome. Les applications de type engin de recherche sont localisées sur des serveurs. Ceux qui utilisent les web crawlers sont principalement les moteurs de recherche.

Documentation complète du projet