Skip to content
Snippets Groups Projects
Verified Commit 0d6427c7 authored by Théo Pirkl's avatar Théo Pirkl :nail_care:
Browse files

Adds work from yesterday

parent 23b0d4c3
Branches
No related tags found
No related merge requests found
......@@ -2,44 +2,50 @@
Il est aujourd'hui difficile de récupérer des documents en masse[^1]. Sans connaissances en informatique poussées, il est véritablement
complexe pour un utilisateur lambda d'arriver à ses fins dans ce domaine.
On dénombre aujourd'hui différentes possibilités de récupérer une quantité importante de documents; aucune de ces dernières ne pose
un véritable standard de comment s'y prendre. Et à raison : Internet étant certainement l'outil possédant des ressources des plus
variées, chaque site web, application ou service propose le téléchargement de documents d'une façon différente.
\wimg{figs/data-never-sleeps.png}{scale=0.2}{Ce que produit Internet chaque minute (en 2017)}{r}{200pt}
Faciliter la récupération de données est particulièrement important; Forbes estimait en 2018 la création de 2'500'000 *terabytes*
de données par jour [@marr_how_nodate]. Cette quantité de données est affolante et il est très facile de se noyer dedans et de perdre de l'information.
Pour se donner une idée, l'entreprise Nandex affirme qu'un employé perd 2.5 heures par jour à chercher des documents [@noi_workers_nodate].
La récupération en masse de données est une solution permettant de diminuer la surface de recherche. En récupérant les documents en masse d'un site,
on élimine déjà une quantité de documents inutile tout à fait considérable, ce qui permettrait de réduire ces deux heures et demi de perdus chaque jour.
On dénombre aujourd'hui différentes possibilités de récupérer une quantité importante de documents; il n'existe en outre aucun standard
appliqué partout pour ces besoins. Chaque site web, application ou service propose le téléchargement de documents d'une façon différente.
Commencons par étudier les différentes solutions dédiées à la récupération en masse de documents. Nous poursuivrons ensuite par
comparer les solutions actuelles avec celle proposée dans ce travail. Ensuite, nous analyserons de façon théorique puis pratique
la solution ici implémentée; nous verrons ensuite plusieurs exemples d'application de ma solution, pour enfin aboutir sur une analyse
critique de ce qui a été dit jusque là.
critique de ce qui a été dit jusque là. Afin d'éviter de se disperser, nous allons dans ce travail nous limiter uniquement et volontairement
aux sites web comme seule source d'information possible; autrement dit, nous allons exclure par exemple la récupération de documents via une
application installée sur un poste.
[^1]: On entend par *en masse* la capacité à télécharger des documents en grande quantité, selon certains critères ou non.
## Etude et analyse
Nous allons dans ce travail nous limiter uniquement et volontairement aux sites web comme seule source d'information possible; autrement
dit, nous allons exclure par exemple la récupération de documents via une application installée sur un poste.
Certains fournisseurs de données (entreprises, entités étatiques, etc.) facilitient l'obtention des documents, par exemple à l'aide d'une (+API_a),
d'une publication régulière sur des flux lisibles par ordinateurs; certains mêmes proposent encore l'envoi de CDs par la poste pour
récupérer les données.
Les (+API_a)s restent de nos jours la meilleure méthode de récupération de données; elle donne en effet la liberté à l'utilisateur final de faire
plus ou moins exactement ce qu'il souhaite. Ainsi, il est possible de récupérer des documents correspondant à certains critères sans
Certains fournisseurs de données (entreprises, entités étatiques, etc.) facilitient l'obtention des documents, par exemple à l'aide d'une (+API_a)[^2], d'une publication régulière sur des flux lisibles par ordinateurs; certains mêmes proposent encore l'envoi de CDs par la poste pour
récupérer leurs données.
Les (+API_a)s restent de nos jours la meilleure méthode de récupération de données possible; elles donnent en effet la liberté à l'utilisateur de
faire exactement ce qu'il souhaite. Ainsi, il est possible de récupérer des documents correspondant à certains critères sans
devoir télécharger l'entièreté du site, contrairement aux autres méthodes qui ne font "que" proposer un format de données déjà lisible
pour l'ordinateur.
Malheureusement, les (+API_a)s ne font pas pléthore de nos jours. Beaucoup de sites ne proposent pas d\'(+API_a); dans le cas où elles en proposent,
elles sont souvent payantes, ou accessibles sur permission uniquement. Une (+API_a) représente dans la majorité des cas une fonctionnalité
supplémentaire au site, ce qui signifie des coûts d'exploitation plus élevés pour le propriétaire du site.
supplémentaire au site, ce qui signifie des coûts d'exploitation plus élevés pour le propriétaire du site.
Sans (+API_a), une seule source de données est accessible: le site web lui-même. Dans ce cas, la récupération de documents doit être faite soit
par un utilisateur de façon régulière, soit par une machine. C'est naturellement la seconde option que nous allons étudier ici.
Il peut être étonnant de voir le manque de logiciel de (+scraping_g) existant sur le marché aujourd'hui. En vérité, il
Il y a un manque de logiciel de (+scraping_g) existant sur le marché aujourd'hui; très peu de solutions proposant de télécharger des documents
en masse pour un site précis, et il y en a encore moins permettant de télécharger des documents sur n'importe quel site. Deux types de services
existent actuellement sur le marché : les solutions payantes et les solutions de type (+framework_g).
[^2]: Interface dans un logiciel ou un site permettant à des tierces parties d'interagir de façon controllée avec le service.
## Comparaison et résumé des approches existantes
aka "Ma solution c'est la meilleure" :D
test
### Test
Ceci est un test
......
# Références bibliographiques {-}
Itou
# Références documentaires {-}
% USAGE : https://github.com/tomncooper/pandoc-gls
% Insérez les termes pour le glossaire ici.
\newglossaryentry{scraper_g}{name=scrapper,description=Logiciel permettant la récupération en masse de documents.}
% Ne mettez pas de points à la fin d'une entrée, ils sont mis pour vous !
\newglossaryentry{scraper_g}{name=scrapper,description=Logiciel permettant la récupération en masse de documents}
\newglossaryentry{scraping_g}{name=scraping,description=Utilisation d'un \gls{scraper_g}}
\newglossaryentry{API_g}{name=API,description=Interface dans un logiciel ou un site permettant à des tierces parties d'interagir de façon controllée avec le service}
\newglossaryentry{framework_g}{name=framework,description=Un framework est un ensemble de composants permettant de poser les fondations d'un logiciel de façon à ne pas tout programmer de zéro}
% Insérez les termes pour la table des acronymes ici.
\newacronym{API_a}{API}{Application Programming Interface}
\ No newline at end of file
% Ne mettez pas de points à la fin d'une entrée, ils sont mis pour vous !
\newacronym{API_a}{API}{Application Programming Interface.}
\ No newline at end of file
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment