Web crawler

Par Jonathan Diaz-Muy

Je voudrais créer un web crawler pour qu'il puisse retrouver des images d'une certaine taille (320x320) de sites internet. Le crawler va partir d'un site internet (root), va examiner le HTML de celui-ci, et s'il trouve un lien, il le mettra dans une liste de liens à parcourir. Chaque fois que le crawler trouvera un lien d'un site web, un autre thread partira pour ''crawl'' sur la nouvelle page. Bien entendu, le webcrawler respectera les fichiers robots.txt des sites web, qui sont des fichiers avec des restrictions du site. Je pense qu'il serait intéressant de voir jusqu'à combien de threads le webcrawler peut explorer parallèlement.