Skip to content
Snippets Groups Projects
Verified Commit 56d5d9d7 authored by Théo Pirkl's avatar Théo Pirkl :nail_care:
Browse files

Done. Goodbye hepia

parent 903c2459
Branches
No related tags found
No related merge requests found
......@@ -71,8 +71,8 @@ Le parallélisme permet, de manière générale, d'accélérer le traitement de
Le multiprocessing permet de mettre à contribution chaque coeur du processeur sur lequel est exécuté le client Inari. Le multiprocessing permet d'isoler chaque traitement. Le multithreading n'était pas utilisable dans le cadre de ce projet en raison de la technologie utilisée pour télécharger les documents [@noauthor_multithreading_nodate].
L'utilisation d'un pool de clients Inari, quant à elle, permet d'ajouter une couche de parallélisme : on pourrait comparer son utilisation à un multiprocessing de haut niveau, où tous les ordinateurs formeraient ensemble un seul processeur. Utiliser plusieurs ordinateur apporte aussi une redondance dans le traitement des documents. Dans le cas où un ordinateur hébergeant un client Inari venait à tomber en panne pendant un traitement, il est possible d'une part de relancer les tâches. On pourrait ensuite choisir de les relancer sur le même ordinateur une fois son fonctionnement restauré, ou sur un autre. L'utilisation des deux technologies de parallélisme permet non seulement de prévenir des pannes, mais aussi d'utiliser de façon optimale les ressources de chaque ordinateur accueillant un client Inari.
De cette façon, il est possible de traiter plusieurs workflows en même temps. Le workflow n'est donc pas accéléré mais la quantité de workflow exécutables en simultané est augmentée.
L'utilisation d'un pool de clients Inari, quant à elle, permet d'ajouter une couche de parallélisme : on pourrait comparer son utilisation à un multiprocessing de haut niveau, où tous les ordinateurs formeraient ensemble un seul processeur. Utiliser plusieurs ordinateurs apporte aussi une redondance dans le traitement des documents. Dans le cas où un ordinateur hébergeant un client Inari venait à tomber en panne pendant un traitement, il est possible d'une part de relancer les tâches. On pourrait ensuite choisir de les relancer sur le même ordinateur une fois son fonctionnement restauré, ou sur un autre. L'utilisation des deux technologies de parallélisme permet non seulement de prévenir des pannes, mais aussi d'utiliser de façon optimale les ressources de chaque ordinateur accueillant un client Inari.
De cette façon, il est possible de traiter plusieurs workflows en même temps. Le workflow n'est donc pas accéléré mais la quantité de workflows exécutables en simultané est augmentée.
Par exemple, si huit machines sont considérées comme clients et que chacune possède huit coeurs, il est théoriquement possible de lancer $64$ workflows à la fois. Théoriquement, car les workflows peuvent consommer des ressources importantes et lancer trop de workflow à la fois peut surcharger l'ordinateur sur lequel est hébergé un des clients Inari. Il est donc important, en configurant les clients Inari, de ne pas allouer à ces derniers la totalité des ressources système à disposition.
Le chapitre _mesures_ montre l'accélération observée lors des mesures grâce au parallélisme.
......
......@@ -13,7 +13,7 @@ L'intégralité des mesures effectuées sont disponibles [sur le git associé au
## FAO Genève
La (+FAO_a) Genève publie régulièrement durant la semaine une multitude de documents allant de l'avis de police à l'annonce de démolition. Toute personne peut obtenir par ce biais des informations la concernant. A la différence de courriers envoyés aux intéressés (annonce par courrier), la (+FAO_a) fonctionne par publication : il est donc théoriquement nécessaire à chacun de rester informé en permanence des publications intervenant ce site.
La (+FAO_a) Genève publie régulièrement durant la semaine une multitude de documents allant de l'avis de police à l'annonce de démolition. Toute personne peut obtenir par ce biais des informations la concernant. A la différence de courriers envoyés aux intéressés (annonce par courrier), la (+FAO_a) fonctionne par publication : il est donc théoriquement nécessaire à chacun de rester informé en permanence des publications intervenant sur ce site.
### Théorie
......@@ -121,7 +121,7 @@ Swiss-Impex est une base de données proposant l'intégralité des statistiques
Swiss-Impex demande plus de travail que la FAO Genève pour télécharger un document. La FAO Genève propose une page où l'on peut directement récupérer le document, tandis que Swiss-Impex demande de remplir cinq pages de formulaires afin de pouvoir fournir le document adéquat.
Il a été établi empiriquement qu'un être humain prend une minute pour télécharger un document. L'utilité d'un automate pour récupérer ne serait-ce qu'une catégorie de documents prend ici tout son sens. En effet, les statistiques sont détaillées mois par mois, et les documents remontent dans la majorité des cas jusqu'en 1988. Dans ces cas, on obtient un total de $372$ documents par catégorie ($mois \cdot (année - 1) = 12 \cdot 31 = 372$).
Il a été établi empiriquement qu'un être humain prend une minute pour télécharger un document. L'utilité d'un automate pour récupérer ne serait-ce qu'une catégorie de documents prend ici tout son sens. En effet, les statistiques sont détaillées mois par mois, et les documents remontent dans la majorité des cas jusqu'en 1988. Dans ces cas, on obtient un total de $372$ documents par catégorie ($mois \cdot (annee - 1) = 12 \cdot 31 = 372$).
Un être humain prendrait donc six heures et $12$ minutes pour télécharger une catégorie complète. Il y a environ $9000$ catégories sur le site de Swiss-Impex, soit un total de $3348000$ documents. Il semble difficile même pour un automate de télécharger l'intégralité du site. A une vitesse de 100 documents par minute et en ignorant certaines contraintes, un automate prendrait environ un mois pour télécharger l'intégralité du site.
Il est donc plus intéressant de s'intéresser à télécharger une seule catégorie.
......@@ -196,7 +196,7 @@ Il faut, selon les mesures effectuées, $9800$ secondes pour télécharger $4092
La récupération des documents sur Swiss-Impex est, au vu des mesures, plus longue que sur la FAO Genève. Toutefois, Inari semble tout à fait apte à supporter la montée en charge. Pour reprendre les questions posées en début de chapitre :
* Est-ce que l'automatisation de la récupération des documents est plus rapide que le téléchargement des documents un par un ? Bien que les résultats ne soient pas aussi rapides que ceux du site précédent, on arrive malgré tout à des résultats plus rapides qu'un être humain. La réponse est donc oui. Malgré les statistiques hétérogènes, Inari apporte une fiabilité qu'un être humain ne peut apporter sur le long terme. Même quand le pourcentage de performance gagné semble faible par rapport à d'autres pourcentages, Inari continue à traiter ces documents, même suite à une erreur, sans arrêt et est capable de travailler 24 heures sur 24, 7 jours sur 7, en reprenant les tâches échouées. Un humain ne peut apporter ces performances et serait impacté dans son travail s'il devait faire le travail d'Inari.
* Est-ce que l'automatisation de la récupération des documents est plus rapide que le téléchargement des documents un par un ? Bien que les résultats ne soient pas aussi rapides que ceux du site précédent, on arrive malgré tout à des résultats plus rapides qu'un être humain. La réponse est donc oui. Malgré les statistiques hétérogènes, Inari apporte une fiabilité qu'un être humain ne peut apporter sur le long terme. Même quand le pourcentage de performance gagné semble faible par rapport à d'autres pourcentages, Inari continue à traiter ces documents, même suite à une erreur, sans arrêt et est capable de travailler 24 heures sur 24, sept jours sur sept, en reprenant les tâches échouées. Un humain ne peut apporter ces performances et serait impacté dans son travail s'il devait faire le travail d'Inari.
* Est-ce que la distribution des tâches de téléchargement accélère le traitement des tâches ? Oui, mais pas linéairement. Autrement dit, on observe par exemple qu'à 80 workers simultanés, la fréquence de téléchargement se rapproche de celle d'un humain.
## Registre du Commerce (RC)
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment