Skip to content
Snippets Groups Projects
Verified Commit 6fee01c8 authored by Théo Pirkl's avatar Théo Pirkl :nail_care:
Browse files

Finishes rapport for good

parent d2d3e200
Branches
No related tags found
No related merge requests found
......@@ -12,7 +12,7 @@ Enfin, je remercie Monsieur Neuenschwander qui a accepté de me relire et de me
# Résumé {-}
Rester informé sur Internet devient de plus en plus difficile. Ce réseau continue inexorablement à s'étendre et à proposer une foule d'information qui est impossible à absorber par un être humain. Certains sites ont une telle quantité d'information qu'ils représentent à eux seuls une masse beaucoup trop importante pour que quiconque s'affirme à jour. Une solution, qui est le sujet de ce travail de semestre, est le traitement en masse de documents, qu'on surnomme _scraping_. Le but de ce projet est de proposer un logiciel modulaire, nommé NScrap, capable de se connecter à tout site, et utilisable par tous et toutes. Pour atteindre ce but, ce travail propose l'étude et l'implémentation d'un logiciel remplissant ces critères. Pour vérifier si NScrap répond à ces questions, ce travail étudiera les performances de récupération de documents sur deux sites différents. La capacité d'utilisation par un utilisateur lambda sera aussi étudiée. Les résultats en performances semblent indiquer qu'un scrapper peut accélérer au moins de deux fois la récupération de documents. Au maximum, un gain de 883% de vitesse a été observé. L'objectif de gain de performance semble avoir été rempli. L'implémentation d'un système accessible à un utilisateur lambda est encore à améliorer, par exemple en transformant l'implémentation actuelle se reposant sur l'écriture de fichiers de commandes par l'utilisateur en interface web où ce dernier n'aurait plus qu'à relier des boîtes, à la façon d'un flux de travail pour définir le fonctionnement de l'application. Cette amélioration sera apportée lors du travail de Bachelor, qui sera en continuité avec ce travail.
Rester informé sur Internet devient de plus en plus difficile. Ce réseau continue inexorablement à s'étendre et à proposer une foule d'information qui est impossible à absorber par un être humain. Certains sites ont une telle quantité d'information qu'ils représentent à eux seuls une masse beaucoup trop importante. Une solution est le traitement en masse de documents, qu'on surnomme _scraping_. Le but de ce projet est de proposer un logiciel modulaire, nommé Inari, capable de se connecter à tout site, et utilisable par tous et toutes. Pour vérifier si Inari répond à ces questions, ce travail étudiera les performances de récupération de documents sur deux sites différents. La capacité d'utilisation par un utilisateur final sera aussi étudiée. Les résultats en performances semblent indiquer qu'un scraper peut accélérer au moins de deux fois la récupération de documents par rapport à un humain. Au maximum, un gain de 883% de vitesse a été observé. L'objectif de gain de performance semble avoir été rempli. L'implémentation d'un système accessible à un utilisateur final est encore à améliorer, par exemple en transformant l'implémentation actuelle se reposant sur l'écriture de fichiers de commandes par l'utilisateur en interface web où ce dernier n'aurait plus qu'à relier des boîtes, représentant chacune des modules. La connexion entre ces boîtes permettrait de définir, à la façon d'un diagramme de flux de travail, le fonctionnement de l'application dans un ordre prédéfini. Par exemple, une première boîte déterminerait quel document télécharger, une seconde boîte lancerait la conversion des fichiers récupérés à la première étape. Cette amélioration sera étudiée et potentiellement apportée lors du travail de Bachelor, qui sera en continuité avec ce travail.
\begin{figure}
\vspace{.25cm}
......
......@@ -8,7 +8,7 @@ clients: # The default management port for a client is 18965
chapters:
File Parser:
file: ./resources/EUMerchIDs.txt
file: ./resources/merchandises/EUMerchIDs.txt
server: yes # Will be run on server
instructions:
read: yes
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment