Adds work from yesterday

0d6427c7 · Théo Pirkl · 23b0d4c3 · 0d6427c7 · 0d6427c7 · 0d6427c7
Verified Commit 0d6427c7 authored 5 years ago by Théo Pirkl
--- a/rapport/text/3-etude.md
+++ b/rapport/text/3-etude.md
@@ -2,44 +2,50 @@

 Il est aujourd'hui difficile de récupérer des documents en masse[^1]. Sans connaissances en informatique poussées, il est véritablement
 complexe pour un utilisateur lambda d'arriver à ses fins dans ce domaine.
-On dénombre aujourd'hui différentes possibilités de récupérer une quantité importante de documents; aucune de ces dernières ne pose
-un véritable standard de comment s'y prendre. Et à raison : Internet étant certainement l'outil possédant des ressources des plus
-variées, chaque site web, application ou service propose le téléchargement de documents d'une façon différente.
+\wimg{figs/data-never-sleeps.png}{scale=0.2}{Ce que produit Internet chaque minute (en 2017)}{r}{200pt}
+Faciliter la récupération de données est particulièrement important; Forbes estimait en 2018 la création de 2'500'000 *terabytes*
+de données par jour [@marr_how_nodate]. Cette quantité de données est affolante et il est très facile de se noyer dedans et de perdre de l'information.
+Pour se donner une idée, l'entreprise Nandex affirme qu'un employé perd 2.5 heures par jour à chercher des documents [@noi_workers_nodate].
+La récupération en masse de données est une solution permettant de diminuer la surface de recherche. En récupérant les documents en masse d'un site,
+on élimine déjà une quantité de documents inutile tout à fait considérable, ce qui permettrait de réduire ces deux heures et demi de perdus chaque jour.
+
+On dénombre aujourd'hui différentes possibilités de récupérer une quantité importante de documents; il n'existe en outre aucun standard
+appliqué partout pour ces besoins. Chaque site web, application ou service propose le téléchargement de documents d'une façon différente.

 Commencons par étudier les différentes solutions dédiées à la récupération en masse de documents. Nous poursuivrons ensuite par
 comparer les solutions actuelles avec celle proposée dans ce travail. Ensuite, nous analyserons de façon théorique puis pratique
 la solution ici implémentée; nous verrons ensuite plusieurs exemples d'application de ma solution, pour enfin aboutir sur une analyse
-critique de ce qui a été dit jusque là.
+critique de ce qui a été dit jusque là. Afin d'éviter de se disperser, nous allons dans ce travail nous limiter uniquement et volontairement
+aux sites web comme seule source d'information possible; autrement dit, nous allons exclure par exemple la récupération de documents via une 
+application installée sur un poste.

 [^1]: On entend par *en masse* la capacité à télécharger des documents en grande quantité, selon certains critères ou non.

 ## Etude et analyse

-Nous allons dans ce travail nous limiter uniquement et volontairement aux sites web comme seule source d'information possible; autrement
-dit, nous allons exclure par exemple la récupération de documents via une application installée sur un poste.
-
-Certains fournisseurs de données (entreprises, entités étatiques, etc.) facilitient l'obtention des documents, par exemple à l'aide d'une (+API_a),
-d'une publication régulière sur des flux lisibles par ordinateurs; certains mêmes proposent encore l'envoi de CDs par la poste pour
-récupérer les données.
-Les (+API_a)s restent de nos jours la meilleure méthode de récupération de données; elle donne en effet la liberté à l'utilisateur final de faire
-plus ou moins exactement ce qu'il souhaite. Ainsi, il est possible de récupérer des documents correspondant à certains critères sans
+Certains fournisseurs de données (entreprises, entités étatiques, etc.) facilitient l'obtention des documents, par exemple à l'aide d'une (+API_a)[^2], d'une publication régulière sur des flux lisibles par ordinateurs; certains mêmes proposent encore l'envoi de CDs par la poste pour
+récupérer leurs données.
+Les (+API_a)s restent de nos jours la meilleure méthode de récupération de données possible; elles donnent en effet la liberté à l'utilisateur de
+faire exactement ce qu'il souhaite. Ainsi, il est possible de récupérer des documents correspondant à certains critères sans
 devoir télécharger l'entièreté du site, contrairement aux autres méthodes qui ne font "que" proposer un format de données déjà lisible
 pour l'ordinateur.

 Malheureusement, les (+API_a)s ne font pas pléthore de nos jours. Beaucoup de sites ne proposent pas d\'(+API_a); dans le cas où elles en proposent,
 elles sont souvent payantes, ou accessibles sur permission uniquement. Une (+API_a) représente dans la majorité des cas une fonctionnalité
-supplémentaire au site, ce qui signifie des coûts d'exploitation plus élevés pour le propriétaire du site.
+supplémentaire au site, ce qui signifie des coûts d'exploitation plus élevés pour le propriétaire du site. 

 Sans (+API_a), une seule source de données est accessible: le site web lui-même. Dans ce cas, la récupération de documents doit être faite soit
 par un utilisateur de façon régulière, soit par une machine. C'est naturellement la seconde option que nous allons étudier ici.

-Il peut être étonnant de voir le manque de logiciel de (+scraping_g) existant sur le marché aujourd'hui. En vérité, il 
+Il y a un manque de logiciel de (+scraping_g) existant sur le marché aujourd'hui; très peu de solutions proposant de télécharger des documents
+en masse pour un site précis, et il y en a encore moins permettant de télécharger des documents sur n'importe quel site. Deux types de services
+existent actuellement sur le marché : les solutions payantes et les solutions de type (+framework_g).

+[^2]: Interface dans un logiciel ou un site permettant à des tierces parties d'interagir de façon controllée avec le service.

 ## Comparaison et résumé des approches existantes

-aka "Ma solution c'est la meilleure" :D
-
+test

 ### Test
 Ceci est un test

--- a/rapport/text/9-bibliographie.md
+++ b/rapport/text/9-bibliographie.md
-# Références bibliographiques {-}
-
-Itou
+# Références documentaires {-}
--- a/rapport/text/ZZ-glossaire.tex
+++ b/rapport/text/ZZ-glossaire.tex
 % USAGE : https://github.com/tomncooper/pandoc-gls

 % Insérez les termes pour le glossaire ici.
-\newglossaryentry{scraper_g}{name=scrapper,description=Logiciel permettant la récupération en masse de documents.}
+% Ne mettez pas de points à la fin d'une entrée, ils sont mis pour vous !
+\newglossaryentry{scraper_g}{name=scrapper,description=Logiciel permettant la récupération en masse de documents}
 \newglossaryentry{scraping_g}{name=scraping,description=Utilisation d'un \gls{scraper_g}}
-\newglossaryentry{API_g}{name=API,description=Interface dans un logiciel ou un site permettant à des tierces parties d'interagir de façon controllée avec le service}
+\newglossaryentry{framework_g}{name=framework,description=Un framework est un ensemble de composants permettant de poser les fondations d'un logiciel de façon à ne pas tout programmer de zéro}

 % Insérez les termes pour la table des acronymes ici.
-\newacronym{API_a}{API}{Application Programming Interface}
\ No newline at end of file
+% Ne mettez pas de points à la fin d'une entrée, ils sont mis pour vous !
+\newacronym{API_a}{API}{Application Programming Interface.}
\ No newline at end of file