@@ -23,7 +23,7 @@ application installée sur un poste.
## Etude et analyse
Certains fournisseurs de données (entreprises, entités étatiques, etc.) facilitient l'obtention des documents, par exemple à l'aide d'une (+API_a)[^2], d'une publication régulière sur des flux lisibles par ordinateurs; certains mêmes proposent encore l'envoi de CDs par la poste pour
Certains fournisseurs de données (entreprises, entités étatiques, etc.) facilitient l'obtention des documents, par exemple à l'aide d'une (+API_a)[^2], d'une publication régulière sur des flux lisibles directement par un ordinateur[^3]; certains mêmes proposent encore l'envoi de CDs par la poste pour
récupérer leurs données.
Les (+API_a)s restent de nos jours la meilleure méthode de récupération de données possible; elles donnent en effet la liberté à l'utilisateur de
faire exactement ce qu'il souhaite. Ainsi, il est possible de récupérer des documents correspondant à certains critères sans
...
...
@@ -32,22 +32,74 @@ pour l'ordinateur.
Malheureusement, les (+API_a)s ne font pas pléthore de nos jours. Beaucoup de sites ne proposent pas d\'(+API_a); dans le cas où elles en proposent,
elles sont souvent payantes, ou accessibles sur permission uniquement. Une (+API_a) représente dans la majorité des cas une fonctionnalité
supplémentaire au site, ce qui signifie des coûts d'exploitation plus élevés pour le propriétaire du site.
supplémentaire au site, ce qui signifie des coûts d'exploitation plus élevés pour le propriétaire du site.
Sans (+API_a), une seule source de données est accessible: le site web lui-même. Dans ce cas, la récupération de documents doit être faite soit
par un utilisateur de façon régulière, soit par une machine. C'est naturellement la seconde option que nous allons étudier ici.
Il y a un manque de logiciel de (+scraping_g) existant sur le marché aujourd'hui; très peu de solutions proposant de télécharger des documents
en masse pour un site précis, et il y en a encore moins permettant de télécharger des documents sur n'importe quel site. Deux types de services
existent actuellement sur le marché : les solutions payantes et les solutions de type (+framework_g).
existent actuellement sur le marché : les solutions payantes en ligne, de type (+SAAS_a) et les solutions de type (+framework_g).
[^2]:Interface dans un logiciel ou un site permettant à des tierces parties d'interagir de façon controllée avec le service.
[^3]:(+RSS_a) est un exemple de flux lisibles par un ordinateur.
## Comparaison et résumé des approches existantes
test
Comme nous l'avons soulevé plus haut, il existe deux solutions dominantes sur le marché à l'heure actuelle. Nous allons maintenant les analyser
sous différents points de vue, ce afin de comprendre les différences de façon de plus profonde.
### Test
Ceci est un test
### Comparaison technique
Les _frameworks_ sont de manière générale offerts, sans support et demandant des connaissances en informatique poussées. Ces derniers sont
proposés "en l'état", parfois mal documentés et ont chacun leur lot de complexité (complexité parfois même variable selon les
versions). Toutefois, une fois un (+framework_g) apprivoisé, il est possible, du moment que le (+framework_g) le supporte, de faire absolument n'importe
quoi. Les prérequis pour l'utilisation d'un (+framework_g) sont donc la possession d'un ordinateur connecté à Internet et des connaissances en
programmation.
Les plateformes (+SAAS_a) possèdent les charactéristiques inverses; elles sont payantes, possèdent un support et demandent moins de connaissances
en informatique. Certains services proposent un système "intelligent" capable de détecter précisemment ce que souhaite obtenir un utilisateur sur
un site juste en surveillant ses clics. Contrairement aux frameworks, la prise en main d'un service en ligne est généralement plus rapide.
Toutefois, les (+SAAS_a) supportent un set de fonctionnalités bien défini; il est donc difficile d'obtenir
des fonctionnalités supplémentaires. Les (+SAAS_a) étant pour la plupart situés sur un ordinateur externe, il est encore nécessaire d'importer les
données récupérées dans son réseau interne (fonctionnalité parfois soumise à des coûts supplémentaires).
Dans les deux cas, il est nécessaire de prendre du temps pour avoir une compréhension du logiciel; un coût d'application permettra de diminuer
la courbe d'apprentissage, mais réduira la fenêtre d'action possible; un prix nul et la courbe sera plus forte mais cela permettra de faire plus
une fois les difficultés passées. Un exemple intéressant pourrait être un site web complexe; il sera beaucoup plus facile de gérer cela nous-mêmes
que via des fonctionnalités pré-pensées.
Au vu de cette comparaison, il n'y a pas de solution meilleure qu'une autre; les deux sont viables et utilisables, dépendamment de qui nous sommes.
Si toutefois les données que nous souhaitons récupérer sont hébergées sur un site complexe[^4], le (+framework_g) s'impose comme la meilleure solution.
[^4]:Utilisant des technologies comme JavaScript, Flash, etc.
### Comparaison morale
L'informatique propose de nombreuses applications, capables d'à peu près tout. L'intérêt de comprendre comment un logiciel fonctionne ne se limite
plus aujourd'hui à la simple compréhension du logiciel; elle permet aussi d'analyser la moralité de ce dernier.
Il peut être facile d'ignorer cette facette, en se justifiant par l'argument que la moralité dans un logiciel de téléchargement de données en masse
importe peu. Le marché prouve le contraire; aujourd'hui, Amazon propose _Mechanical Turk_, un service permettant à toute personne souhaitant récupérer
des masses de documents de payer une personne pour le faire. Elle sera payée entre 4 et 5 dollars par jour [@semuels_online_nodate] pour des actions répetitives (comme par exemple récupérer des documents en masse). En supposant qu'une journée de travail est composée de 8 heures, que chaque document
prend 30 secondes à télécharger et qu'il y a un nombre de documents suffisant pour au moins une journée, le téléchargement d'un document est payé entre
$0.004 \$$ et $0.005 \$$. Avec de telles sommes, une nouvelle catégorie de précarité est ouverte.
De telles plateformes sont qui plus est perverses; les *workers*[^5] dépendent du maigre revenu pour survivre. Elles ne sont pas toujours en mesure
de quitter leur précarité, et elles éprouvent donc une grande difficulté de se séparer de ces plateformes.
Soutenir de telles plateformes est bien évidemment amoral; un tel salaire représente environ 50% du plus bas salaire minimum en Europe. [@noauthor_monthly_nodate]. Et la plateforme d'Amazon n'est qu'un exemple parmis d'autres : de tels _sweatshops_ similaires à _Mechanical Turk_
existent par dizaines, simplement sous d'autres noms. D'autres services, utiles au scraping, proposent la résolution de (+captcha_g) par des humains
(0.001$ par captcha).
A l'instar d'un framework, l'utilisation d'un service tiers est donc un grand risque moral: il n'y a aucune façon de savoir comment un logiciel fabriqué
par un tiers fonctionne. Dès lors, on ignore s'il y a utilisation de plateformes telles que celles citées plus haut.
\newglossaryentry{scraper_g}{name=scrapper,description=Logiciel permettant la récupération en masse de documents}
\newglossaryentry{scraping_g}{name=scraping,description=Utilisation d'un \gls{scraper_g}}
\newglossaryentry{framework_g}{name=framework,description=Un framework est un ensemble de composants permettant de poser les fondations d'un logiciel de façon à ne pas tout programmer de zéro}
\newglossaryentry{captcha_g}{name=captcha,description=Un système permettant de différencier une machine d'un humain en demandant par exemple de faire une addition ou lire du texte}
% Insérez les termes pour la table des acronymes ici.
% Ne mettez pas de points à la fin d'une entrée, ils sont mis pour vous !