Skip to content
Snippets Groups Projects
Verified Commit e1b8036b authored by Théo Pirkl's avatar Théo Pirkl :nail_care:
Browse files

Advances rapport massively

parent bfe8389d
Branches
No related tags found
No related merge requests found
......@@ -52,7 +52,9 @@ Dans le désordre, quelques recommendations pour vous rendre la vie facile.
Le nom après le chiffre (et le tiret) n'est pas important, mais le reste l'est.
- Il **faut** finir tous ces fichiers Markdown dans `text` par un `\pagebreak`. Cela permet de séparer chaque document par un saut de page. Ce n'est pas nécessaire d'en mettre un pour le dernier document (cela ferait une page vierge à la fin du document)
- Il **faut** finir tous ces fichiers Markdown dans `text` par un `\pagebreak`. Cela permet de séparer chaque document par un saut de page. Ce n'est pas nécessaire d'en mettre un pour le dernier fichier markdown (cela ferait une page vierge à la fin du document)
- Il **faut** avoir un fichier de bibliographie en format BibLaTeX nommé `my.bib`. Vous pouvez référencer votre bibliographie en faisant [@le_nom_de_votre_entrée_dans_votre_bibliographie]. Si vous n'avez pas de fichier de ce type, créez-le juste vide.
- Je vous fournis du LaTeX dans certains fichiers markdown. Il n'est pas là par hasard. N'y touchez pas, sans quoi je serai triste. Très triste.
......@@ -69,9 +71,11 @@ Rappel : une figure = une image.
```latex
% Insère une image (et l'ajoute dans la table des figures) :
\img{Le chemin vers l'image}{les options de l'image, comme la taille (scale=0.2)}{La légende de l'image}
%\cimg fait la même chose, mais au centre.
% Insère une image dans le texte (et l'ajoute dans la table des figures):
\wimg{Le chemin vers l'image}{les options de l'image, comme la taille (scale=0.2)}{La légende de l'image}{l'emplacement de l'image : r pour right, l pour left}{la taille prévue pour l'image, comme 200pt}
```
## Remerciements
......
......@@ -28,10 +28,10 @@ geometry:
- left=25mm
- right=25mm
- headheight=25mm
- top=30mm
- top=25mm
- bottom=25mm
toc: true
toc-depth: 3
toc-depth: 2
header-includes: |
\usepackage{fontspec}
\usepackage{graphicx}
......
......@@ -485,9 +485,6 @@
<group display="right-inline">
<text macro="archive"/>
</group>
<group display="right-inline">
<text macro="abstract"/>
</group>
<group display="right-inline">
<text macro="note"/>
</group>
......
@online{bode_court_2019,
title = {Court {{Rules That}} ‘{{Scraping}}’ {{Public Website Data Isn}}’t {{Hacking}} - {{VICE}}},
author = {Bode, Karl},
date = {2019-09-11},
url = {https://www.vice.com/en_us/article/9kek83/linkedin-data-scraping-lawsuit-shot-down},
urldate = {2020-03-03},
file = {/Users/theo.pirkl/Zotero/storage/8RUL88E7/linkedin-data-scraping-lawsuit-shot-down.html}
}
@online{igor_us_2018,
title = {{{US}} Court Stated Scraping, Even When against {{TOS}}, Is Legal},
author = {Igor, Savinkin},
year = {21.04.18},
url = {http://scraping.pro/us-court-scraping-against-tos-legal/#conclusion},
urldate = {2020-03-03},
file = {/Users/theo.pirkl/Zotero/storage/KJZABJLY/us-court-scraping-against-tos-legal.html}
}
@online{marr_how_nodate,
title = {How {{Much Data Do We Create Every Day}}? {{The Mind}}-{{Blowing Stats Everyone Should Read}}},
shorttitle = {How {{Much Data Do We Create Every Day}}?},
......@@ -68,4 +86,13 @@ In its fifth year, Data Never Sleeps shows exactly how much data is created ever
note = {Library Catalog: www.octoparse.com}
}
@online{zetter_is_2010,
title = {Is {{Breaking CAPTCHA}} a {{Crime}}? | {{WIRED}}},
author = {Zetter, Kim},
year = {07.07.10},
url = {https://www.wired.com/2010/07/ticketmaster-2/},
urldate = {2020-03-03},
file = {/Users/theo.pirkl/Zotero/storage/VNW8SNE8/ticketmaster-2.html}
}
......@@ -245,7 +245,7 @@ $endif$
contents={%
\small{$name$, $surname$ - $smallTitle$ - $projectTitle$ - Mars $year$}
},
position={3.9, 0}
position={3.9, 0.5}
}
% END OF CUSTOM PACKAGE ROUTINES
......@@ -269,6 +269,13 @@ $endif$
\caption{#3}
\end{figure}
}
\newcommand{\cimg}[3]{% \img{path}{settings}{caption}
\begin{figure}
\centering
\includegraphics[#2]{#1}
\caption{#3}
\end{figure}
}
\newcommand{\wimg}[5]{
\begin{wrapfigure}{#4}{#5}
\includegraphics[#2]{#1}
......@@ -279,6 +286,8 @@ $endif$
% END OF CUSTOM ROUTINES
\begin{document}
% Nom conformes des tables
\renewcommand*\listfigurename{Liste des illustrations}
% Sets the page numbering style to roman
%\pagestyle{headings}
\setcounter{page}{1}
......
......@@ -2,8 +2,18 @@
\listoffigures
#### Référence des URL {-}
\begin{tabular}{ p{3cm} p{9cm} }
\multicolumn{1}{l}{URL01} & \multicolumn{1}{l}{\url{https://www.domo.com/learn/data-never-sleeps-5}}\\
\multicolumn{1}{l}{URL02} & \multicolumn{1}{l}{\url{https://anti-captcha.com/}} \\
\end{tabular}
\listoftables
#### Référence des URL {-}
\begin{tabular}{ p{3cm} p{9cm} }
\end{tabular}
# Liste des annexes {-}
1, 2, 3, 4..
......
......@@ -5,6 +5,10 @@
Une amorce. Elle permet d'accrocher l'intérêt du lecteur. L'introduction
donne ensuite une vision générale du projet.
## Motivation {-}
Pourquoi je fais ça
## Problématique {-}
J'expliquerai ici la situation d'aujourd'hui; notre capacité à obtenir des informations à très grande vitesse,
......
......@@ -82,24 +82,43 @@ Il peut être facile d'ignorer cette facette, en se justifiant par l'argument qu
importe peu. Le marché prouve le contraire; aujourd'hui, Amazon propose _Mechanical Turk_, un service permettant à toute personne souhaitant récupérer
des masses de documents de payer une personne pour le faire. Elle sera payée entre 4 et 5 dollars par jour [@semuels_online_nodate] pour des actions répetitives (comme par exemple récupérer des documents en masse). En supposant qu'une journée de travail est composée de 8 heures, que chaque document
prend 30 secondes à télécharger et qu'il y a un nombre de documents suffisant pour au moins une journée, le téléchargement d'un document est payé entre
$0.004 \$$ et $0.005 \$$. Avec de telles sommes, une nouvelle catégorie de précarité est ouverte.
0.004$ et 0.005$. Avec de telles sommes, une nouvelle catégorie de précarité est ouverte.
De telles plateformes sont qui plus est perverses; les *workers*[^5] dépendent du maigre revenu pour survivre. Elles ne sont pas toujours en mesure
de quitter leur précarité, et elles éprouvent donc une grande difficulté de se séparer de ces plateformes.
Soutenir de telles plateformes est bien évidemment amoral; un tel salaire représente environ 50% du plus bas salaire minimum en Europe. [@noauthor_monthly_nodate]. Et la plateforme d'Amazon n'est qu'un exemple parmis d'autres : de tels _sweatshops_ similaires à _Mechanical Turk_
existent par dizaines, simplement sous d'autres noms. D'autres services, utiles au scraping, proposent la résolution de (+captcha_g) par des humains
(0.001$ par captcha).
(0.001$ par captcha) dans des pays pour la plupart pauvres.
A l'instar d'un framework, l'utilisation d'un service tiers est donc un grand risque moral: il n'y a aucune façon de savoir comment un logiciel fabriqué
par un tiers fonctionne. Dès lors, on ignore s'il y a utilisation de plateformes telles que celles citées plus haut.
\cimg{figs/anticaptcha-stats.png}{scale=1.2}{Les statistiques des travailleurs d'un service similaire à Mechanical Turk}
Le (+framework_g) ne garantit naturellement pas
A l'inverse d'un framework, l'utilisation d'un service tiers est donc un grand risque moral: il n'y a aucune façon de savoir comment un logiciel
fabriqué par un tiers fonctionne. Dès lors, on ignore s'il y a utilisation de plateformes telles que celles citées plus haut.
L'utilisation d'un (+framework_g) ne garantit naturellement pas d'éviter d'être amoral; toutefois, avoir un contrôle total du comportement de
l'application évite d'utiliser "par accident" une plateforme exploitant des êtres humains.
[^5]: Les travailleurs de cette plateforme.
### Comparaison légale
Oui
Dans les analyses faites pour ce produit, aucun service quel qu'il soit n'a semblé violer de loi. Toutefois, certaines pratiques douteuses sont
ressorties de la recherche, en particulier du côté des fournisseurs de service (+SAAS_a).
Par exemple, certains services proposent la possibilité de récupérer des masses de données importantes en changeant régulièrement d'adresse IP.
Cette technique permet d'éviter d'être bloqué du service; de cette façon il n'est plus possible pour l'hébergeur de bloquer un client accaparant la
bande passante de son service. Il y a un problème de _fair play_ en utilisant ce genre de logiciel.
On peut aussi noter l'utilisation de service de résolution de captcha, dont nous parlions plus haut; outre l'aspect amoral de sous-payer des travailleurs
dans des pays dont la plupart sont en difficulté, l'aspect légal de contourner une protection est tout à fait douteux. C'est toutefois un sujet à
controverse; l'avocate Jennifer Granick dit, en parlant des captchas : "Technologically and legally CAPTCHAs can be thought of as
nothing more than a speed bump as opposed to a barrier" ("Techniquement et légalement, les captchas peuvent être concus comme qu'un dos d'âne et non
comme une barrière") [@zetter_is_2010].
Certains systèmes particulièrement perfectionnés sont mêmes capables de simuler un comportement humain [@zetter_is_2010].
Employer des techniques douteuses n'est pas puni par la loi, mais est socialement inacceptable; si une entreprise dépendant de sa renomée utilisait de
telles techniques et que cela se savait, cela pourrait nuire gravement à leur image de marque.
La question légale du scraping est complexe. C'est un sujet décrié par les grandes entreprises ne souhaitant pas voir "leurs" données s'échapper [@bode_court_2019], mais qui commence à être légalisé [@igor_us_2018]. La règle d'or semble être de faire preuve de bon sens en ne causant aucun tord
à l'entreprise fournissant des données. Pour pouvoir l'affirmer, un contrôle total de l'application est nécessaire, ce qui est à uniquement possible avec un (+framework_g).
\pagebreak
\ No newline at end of file
# Méthodologie
Je décris ici ma façon de faire.
## Langages, design patterns, structures
Une description de type *Génie Logiciel* du projet.
## Modèles de données
Les différents modèles de données dans l'application (BDD, queues, piles, etc)
\pagebreak
\ No newline at end of file
......@@ -10,5 +10,5 @@
% Insérez les termes pour la table des acronymes ici.
% Ne mettez pas de points à la fin d'une entrée, ils sont mis pour vous !
\newacronym{API_a}{API}{Application Programming Interface}
\newacronym{SAAS_a}{SAAS}{Software As A Service}
\newacronym{SAAS_a}{SaaS}{Software As A Service}
\newacronym{RSS_a}{RSS}{Really Simple Syndication}
\ No newline at end of file
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment