Initial commit

dd1676d6 · Théo Pirkl · 0d6427c7 · dd1676d6 · dd1676d6 · dd1676d6
Verified Commit dd1676d6 authored 5 years ago by Théo Pirkl
--- a/rapport/my.bib
+++ b/rapport/my.bib
@@ -11,6 +11,13 @@
  langid = {english}
 }

+@online{noauthor_amazon_nodate,
+  title = {Amazon {{Mechanical Turk}}},
+  url = {https://www.mturk.com/},
+  urldate = {2020-03-02},
+  file = {/Users/theo.pirkl/Zotero/storage/HSH2ZWJN/www.mturk.com.html}
+}
+
 @online{noauthor_domo_nodate,
  title = {Domo {{Resource}} - {{Data Never Sleeps}} 5.0},
  url = {https://www.domo.com/learn/data-never-sleeps-5},
@@ -21,6 +28,13 @@ In its fifth year, Data Never Sleeps shows exactly how much data is created ever
  note = {Library Catalog: www.domo.com}
 }

+@online{noauthor_monthly_nodate,
+  title = {Monthly Minimum Wages - Bi-Annual Data - {{Eurostat}}},
+  url = {https://ec.europa.eu/eurostat/en/web/products-datasets/-/EARN_MW_CUR},
+  urldate = {2020-03-03},
+  file = {/Users/theo.pirkl/Zotero/storage/PZKBUDAV/EARN_MW_CUR.html}
+}
+
 @online{noi_workers_nodate,
  title = {Do Workers Still Waste Time Searching for Information?},
  author = {Noi, Daniela Di},
@@ -32,6 +46,15 @@ In its fifth year, Data Never Sleeps shows exactly how much data is created ever
  note = {Library Catalog: blog.xenit.eu}
 }

+@online{semuels_online_nodate,
+  title = {The {{Online Hell}} of {{Amazon}}'s {{Mechanical Turk}} - {{The Atlantic}}},
+  author = {Semuels, Alana},
+  url = {https://www.theatlantic.com/business/archive/2018/01/amazon-mechanical-turk/551192/},
+  urldate = {2020-03-03},
+  abstract = {The Internet Is Enabling a New Kind of Poorly Paid Hell. For some Americans, sub-minimum-wage online tasks are the only work available.},
+  file = {/Users/theo.pirkl/Zotero/storage/EM9I63X5/551192.html}
+}
+
 @online{weldon_top_nodate,
  title = {Top 30 {{Free Web Scraping Software}} in 2020},
  shorttitle = {Top 30 {{Free Web Scraping Software}} in 2020},

--- a/rapport/text/3-etude.md
+++ b/rapport/text/3-etude.md
@@ -23,7 +23,7 @@ application installée sur un poste.

 ## Etude et analyse

-Certains fournisseurs de données (entreprises, entités étatiques, etc.) facilitient l'obtention des documents, par exemple à l'aide d'une (+API_a)[^2], d'une publication régulière sur des flux lisibles par ordinateurs; certains mêmes proposent encore l'envoi de CDs par la poste pour
+Certains fournisseurs de données (entreprises, entités étatiques, etc.) facilitient l'obtention des documents, par exemple à l'aide d'une (+API_a)[^2], d'une publication régulière sur des flux lisibles directement par un ordinateur[^3]; certains mêmes proposent encore l'envoi de CDs par la poste pour
 récupérer leurs données.
 Les (+API_a)s restent de nos jours la meilleure méthode de récupération de données possible; elles donnent en effet la liberté à l'utilisateur de
 faire exactement ce qu'il souhaite. Ainsi, il est possible de récupérer des documents correspondant à certains critères sans
@@ -32,22 +32,74 @@ pour l'ordinateur.

 Malheureusement, les (+API_a)s ne font pas pléthore de nos jours. Beaucoup de sites ne proposent pas d\'(+API_a); dans le cas où elles en proposent,
 elles sont souvent payantes, ou accessibles sur permission uniquement. Une (+API_a) représente dans la majorité des cas une fonctionnalité
-supplémentaire au site, ce qui signifie des coûts d'exploitation plus élevés pour le propriétaire du site. 
+supplémentaire au site, ce qui signifie des coûts d'exploitation plus élevés pour le propriétaire du site.

 Sans (+API_a), une seule source de données est accessible: le site web lui-même. Dans ce cas, la récupération de documents doit être faite soit
 par un utilisateur de façon régulière, soit par une machine. C'est naturellement la seconde option que nous allons étudier ici.

 Il y a un manque de logiciel de (+scraping_g) existant sur le marché aujourd'hui; très peu de solutions proposant de télécharger des documents
 en masse pour un site précis, et il y en a encore moins permettant de télécharger des documents sur n'importe quel site. Deux types de services
-existent actuellement sur le marché : les solutions payantes et les solutions de type (+framework_g).
+existent actuellement sur le marché : les solutions payantes en ligne, de type (+SAAS_a) et les solutions de type (+framework_g).

 [^2]: Interface dans un logiciel ou un site permettant à des tierces parties d'interagir de façon controllée avec le service.
+[^3]: (+RSS_a) est un exemple de flux lisibles par un ordinateur.

 ## Comparaison et résumé des approches existantes

-test
+Comme nous l'avons soulevé plus haut, il existe deux solutions dominantes sur le marché à l'heure actuelle. Nous allons maintenant les analyser
+sous différents points de vue, ce afin de comprendre les différences de façon de plus profonde.

-### Test
-Ceci est un test
+### Comparaison technique
+
+Les _frameworks_ sont de manière générale offerts, sans support et demandant des connaissances en informatique poussées. Ces derniers sont
+proposés "en l'état", parfois mal documentés et ont chacun leur lot de complexité (complexité parfois même variable selon les
+versions). Toutefois, une fois un (+framework_g) apprivoisé, il est possible, du moment que le (+framework_g) le supporte, de faire absolument n'importe
+quoi. Les prérequis pour l'utilisation d'un (+framework_g) sont donc la possession d'un ordinateur connecté à Internet et des connaissances en
+programmation.
+
+Les plateformes (+SAAS_a) possèdent les charactéristiques inverses; elles sont payantes, possèdent un support et demandent moins de connaissances
+en informatique. Certains services proposent un système "intelligent" capable de détecter précisemment ce que souhaite obtenir un utilisateur sur
+un site juste en surveillant ses clics. Contrairement aux frameworks, la prise en main d'un service en ligne est généralement plus rapide.
+Toutefois, les (+SAAS_a) supportent un set de fonctionnalités bien défini; il est donc difficile d'obtenir
+des fonctionnalités supplémentaires. Les (+SAAS_a) étant pour la plupart situés sur un ordinateur externe, il est encore nécessaire d'importer les
+données récupérées dans son réseau interne (fonctionnalité parfois soumise à des coûts supplémentaires).
+
+Dans les deux cas, il est nécessaire de prendre du temps pour avoir une compréhension du logiciel; un coût d'application permettra de diminuer
+la courbe d'apprentissage, mais réduira la fenêtre d'action possible; un prix nul et la courbe sera plus forte mais cela permettra de faire plus
+une fois les difficultés passées. Un exemple intéressant pourrait être un site web complexe; il sera beaucoup plus facile de gérer cela nous-mêmes
+que via des fonctionnalités pré-pensées.
+
+Au vu de cette comparaison, il n'y a pas de solution meilleure qu'une autre; les deux sont viables et utilisables, dépendamment de qui nous sommes.
+Si toutefois les données que nous souhaitons récupérer sont hébergées sur un site complexe[^4], le (+framework_g) s'impose comme la meilleure solution.
+
+[^4]: Utilisant des technologies comme JavaScript, Flash, etc.
+
+### Comparaison morale
+
+L'informatique propose de nombreuses applications, capables d'à peu près tout. L'intérêt de comprendre comment un logiciel fonctionne ne se limite
+plus aujourd'hui à la simple compréhension du logiciel; elle permet aussi d'analyser la moralité de ce dernier.
+Il peut être facile d'ignorer cette facette, en se justifiant par l'argument que la moralité dans un logiciel de téléchargement de données en masse
+importe peu. Le marché prouve le contraire; aujourd'hui, Amazon propose _Mechanical Turk_, un service permettant à toute personne souhaitant récupérer
+des masses de documents de payer une personne pour le faire. Elle sera payée entre 4 et 5 dollars par jour [@semuels_online_nodate] pour des actions répetitives (comme par exemple récupérer des documents en masse). En supposant qu'une journée de travail est composée de 8 heures, que chaque document
+prend 30 secondes à télécharger et qu'il y a un nombre de documents suffisant pour au moins une journée, le téléchargement d'un document est payé entre
+$0.004 \$$ et $0.005 \$$. Avec de telles sommes, une nouvelle catégorie de précarité est ouverte.
+
+De telles plateformes sont qui plus est perverses; les *workers*[^5] dépendent du maigre revenu pour survivre. Elles ne sont pas toujours en mesure
+de quitter leur précarité, et elles éprouvent donc une grande difficulté de se séparer de ces plateformes.
+
+Soutenir de telles plateformes est bien évidemment amoral; un tel salaire représente environ 50% du plus bas salaire minimum en Europe. [@noauthor_monthly_nodate]. Et la plateforme d'Amazon n'est qu'un exemple parmis d'autres : de tels _sweatshops_ similaires à _Mechanical Turk_
+existent par dizaines, simplement sous d'autres noms. D'autres services, utiles au scraping, proposent la résolution de (+captcha_g) par des humains
+(0.001$ par captcha).
+
+A l'instar d'un framework, l'utilisation d'un service tiers est donc un grand risque moral: il n'y a aucune façon de savoir comment un logiciel fabriqué 
+par un tiers fonctionne. Dès lors, on ignore s'il y a utilisation de plateformes telles que celles citées plus haut.
+
+Le (+framework_g) ne garantit naturellement pas 
+
+[^5]: Les travailleurs de cette plateforme.
+
+### Comparaison légale
+
+Oui

 \pagebreak
\ No newline at end of file
--- a/rapport/text/ZZ-glossaire.tex
+++ b/rapport/text/ZZ-glossaire.tex
@@ -5,7 +5,10 @@
 \newglossaryentry{scraper_g}{name=scrapper,description=Logiciel permettant la récupération en masse de documents}
 \newglossaryentry{scraping_g}{name=scraping,description=Utilisation d'un \gls{scraper_g}}
 \newglossaryentry{framework_g}{name=framework,description=Un framework est un ensemble de composants permettant de poser les fondations d'un logiciel de façon à ne pas tout programmer de zéro}
+\newglossaryentry{captcha_g}{name=captcha,description=Un système permettant de différencier une machine d'un humain en demandant par exemple de faire une addition ou lire du texte}

 % Insérez les termes pour la table des acronymes ici.
 % Ne mettez pas de points à la fin d'une entrée, ils sont mis pour vous !
-\newacronym{API_a}{API}{Application Programming Interface.}
\ No newline at end of file
+\newacronym{API_a}{API}{Application Programming Interface}
+\newacronym{SAAS_a}{SAAS}{Software As A Service}
+\newacronym{RSS_a}{RSS}{Really Simple Syndication}
\ No newline at end of file