Skip to content
Snippets Groups Projects
Verified Commit 64c33524 authored by Théo Pirkl's avatar Théo Pirkl :nail_care:
Browse files

I added myself

parent f39b1417
Branches
No related tags found
No related merge requests found
......@@ -259,11 +259,6 @@ In its fifth year, Data Never Sleeps shows exactly how much data is created ever
langid = {french}
}
@report{pirkl_inari_nodate,
title = {Inari - Un Scraper Modulaire},
author = {Pirkl, Théo}
}
@online{rummler_facebook_nodate,
title = {Facebook Sues Mobile Analytics Company for Scraping User Data},
author = {Rummler, Orion},
......
......@@ -6,7 +6,7 @@ Obtenir des informations sur Internet devient de plus en plus difficile au fil d
L'informatique permet d'automatiser les actions répétitives. Cela permet d'accélérer le téléchargement de documents, en utilisant par exemple la parallélisation. Ce qu'apporterait aussi un logiciel est la capacité de fiabilité, c'est-à-dire d'être capable de reprendre le téléchargement des documents même après une panne ou après une pause ordonnée par l'utilisateur. Un tel logiciel se doit d'être capable de fonctionner sur n'importe quel site. Par exemple, il doit être en mesure de fonctionner sur un site proposant directement les documents aussi bien que sur un site demandant de remplir des formulaires, de résoudre un captcha[^1] et de convertir les documents en un format adéquat.
L'objectif de ce travail est de proposer un système nommé Inari satisfaisant ces critères. Il devra proposer un système simple pour qu'un utilisateur final puisse s'en servir. Ce travail se base sur le travail de semestre ayant posé les bases d'une telle application. Un intérêt scientifique et social est présent : d'une part, on peut mesurer l'efficacité d'un tel outil pour voir si oui ou non une machine peut accélérer la récupération de documents ainsi que sa praticité, et d'autre part, on peut trouver des applications pratiques où un individu a besoin de récupérer des informations en masse. De tels logiciels peuvent être utiles pour bien des professions en dehors de l'informatique.
L'objectif de ce travail est de proposer un système nommé Inari satisfaisant ces critères. Il devra proposer un système simple pour qu'un utilisateur final puisse s'en servir. Ce travail se base sur le travail de semestre [@pirkl_inari_2019] ayant posé les bases d'une telle application. Un intérêt scientifique et social est présent : d'une part, on peut mesurer l'efficacité d'un tel outil pour voir si oui ou non une machine peut accélérer la récupération de documents ainsi que sa praticité, et d'autre part, on peut trouver des applications pratiques où un individu a besoin de récupérer des informations en masse. De tels logiciels peuvent être utiles pour bien des professions en dehors de l'informatique.
Pour atteindre l'objectif de ce travail, une étude des solutions existantes a été menée et un cahier des charges a été fixé, ce qui permet par la suite de poser l'architecture de ce projet. Une fois l'implémentation terminée, des mesures sur différents sites ont été effectuées. Cela a permis de déterminer la vitesse de traitement du logiciel ainsi que l'utilité d'un tel logiciel.
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment