@@ -12,7 +12,7 @@ Enfin, je remercie Monsieur Neuenschwander qui a accepté de me relire et de me
# Résumé {-}
Rester informé sur Internet devient de plus en plus difficile. Ce réseau continue inexorablement à s'étendre et à proposer une foule d'information qui est impossible à absorber par un être humain. Certains sites ont une telle quantité d'information qu'ils représentent à eux seuls une masse beaucoup trop importante pour que quiconque s'affirme à jour. Une solution, qui est le sujet de ce travail de semestre, est le traitement en masse de documents, qu'on surnomme _scraping_. Le but de ce projet est de proposer un logiciel modulaire, nommé NScrap, capable de se connecter à tout site, et utilisable par tous et toutes. Pour atteindre ce but, ce travail propose l'étude et l'implémentation d'un logiciel remplissant ces critères. Pour vérifier si NScrap répond à ces questions, ce travail étudiera les performances de récupération de documents sur deux sites différents. La capacité d'utilisation par un utilisateur lambda sera aussi étudiée. Les résultats en performances semblent indiquer qu'un scrapper peut accélérer au moins de deux fois la récupération de documents. Au maximum, un gain de 883% de vitesse a été observé. L'objectif de gain de performance semble avoir été rempli. L'implémentation d'un système accessible à un utilisateur lambda est encore à améliorer, par exemple en transformant l'implémentation actuelle se reposant sur l'écriture de fichiers de commandes par l'utilisateur en interface web où ce dernier n'aurait plus qu'à relier des boîtes, à la façon d'un flux de travail pour définir le fonctionnement de l'application. Cette amélioration sera apportée lors du travail de Bachelor, qui sera en continuité avec ce travail.
Rester informé sur Internet devient de plus en plus difficile. Ce réseau continue inexorablement à s'étendre et à proposer une foule d'information qui est impossible à absorber par un être humain. Certains sites ont une telle quantité d'information qu'ils représentent à eux seuls une masse beaucoup trop importante. Une solution est le traitement en masse de documents, qu'on surnomme _scraping_. Le but de ce projet est de proposer un logiciel modulaire, nommé Inari, capable de se connecter à tout site, et utilisable par tous et toutes. Pour vérifier si Inari répond à ces questions, ce travail étudiera les performances de récupération de documents sur deux sites différents. La capacité d'utilisation par un utilisateur final sera aussi étudiée. Les résultats en performances semblent indiquer qu'un scraper peut accélérer au moins de deux fois la récupération de documents par rapport à un humain. Au maximum, un gain de 883% de vitesse a été observé. L'objectif de gain de performance semble avoir été rempli. L'implémentation d'un système accessible à un utilisateur final est encore à améliorer, par exemple en transformant l'implémentation actuelle se reposant sur l'écriture de fichiers de commandes par l'utilisateur en interface web où ce dernier n'aurait plus qu'à relier des boîtes, représentant chacune des modules. La connexion entre ces boîtes permettrait de définir, à la façon d'un diagramme de flux de travail, le fonctionnement de l'application dans un ordre prédéfini. Par exemple, une première boîte déterminerait quel document télécharger, une seconde boîte lancerait la conversion des fichiers récupérés à la première étape. Cette amélioration sera étudiée et potentiellement apportée lors du travail de Bachelor, qui sera en continuité avec ce travail.