Skip to content
Snippets Groups Projects
Verified Commit 1e610124 authored by Théo Pirkl's avatar Théo Pirkl :nail_care:
Browse files

Avant Adrien

parent aef5eff7
Branches
No related tags found
No related merge requests found
......@@ -161,7 +161,7 @@ La FAO Genève est un site de la République et Canton de Genève, et propose de
Pour récupérer les documents, la marche à suivre est la suivante : lancer un navigateur, puis le faire naviguer sur le site web de la FAO Genève (https://fao.ge.ch). Là, un captcha est à résoudre, mais qui peut être évité en remplaçant dans l'URL `captcha` par login. C'est ce qui est alors fait. Une fois le captcha détourné, on accède à la liste des fichiers récents. Il faut alors exécuter une XPath pour retrouver l'URL de téléchargement de chaque document : on simule ensuite ces clics pour récupérer les documents en une seule fois.
Le traitement principal consiste donc à aller sur le site, détourner le captcha et détecter les boutons de téléchargement, ce que fait le workflow Inari.
Le traitement ci-dessus correspond à une page. Pour télécharger 200 pages, il suffit d'ajouter une étape où une fois que le captcha est résolu, on demande au navigateur d'aller à la page correspondante via le paramètre `page` dans l'URL. Par exemple, la page 40 correspond à l'URL `https://fao.ge.ch?page=39`.
Le traitement ci-dessus correspond à une page. Pour télécharger 200 pages, il suffit d'ajouter une étape où une fois que le captcha est résolu, on demande au navigateur d'aller à la page correspondante via le paramètre `page` dans l'URL. Par exemple, la page 40 correspond à l'URL \url{https://fao.ge.ch?page=39}.
## Catégorie deux : Scrapers complexes
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment