added some info on research

966f3674 · ivan.rigo · 4635cab8 · 966f3674
Commit 966f3674 authored 1 year ago by ivan.rigo
--- a/NoteProjetSemestre.txt
+++ b/NoteProjetSemestre.txt
@@ -63,3 +63,47 @@ C'est un modèle déjà entrainée et utilisé dans le but d'entrainée un autre
 https://nanonets.com/blog/layoutlm-explained/
 https://github.com/microsoft/unilm/blob/master/layoutlm/deprecated/README.md
 https://huggingface.co/docs/transformers/model_doc/layoutlm
+
+
+
+
+Analyse sur les sources reçu et recherchées
+
+FUNSD
+Dataset ayant principalement des formulaires, peut être tweakable pour correspondre au besoin,mais
+la structure de base demandera beaucoup de changement (le dataset contient grossièrement deux carrées,questions & réponses)
+A voir si utile,mais je doute
+
+
+https://www.kaggle.com/code/ritvik1909/layoutlmv1-information-extraction
+Très brut, plus une présentation qu'autre chose, et les résultats ont pas l'air fou
+Utilise layoutlm1
+
+https://www.philschmid.de/fine-tuning-layoutlm
+Utilise layoutlm,un élément de layoutlm2. Le tutorial s'appuye aussi sur huggingface pour pull des fonctions/crée un model qu'il déposera sur le Site
+Aussi utilisé pour "visionner" la progression. Même chose que FUNSD (vu qu'il l'utilise dans le tutorial), utilisable,mais doit être tweaké (si on ne
+veut pas utilisé hugging face)
+
+https://medium.com/@matt.noe/tutorial-how-to-train-layoutlm-on-a-custom-dataset-with-hugging-face-cda58c96571c
+Utilise layoutlm3 et des données personalisé (donc pas de custom dataset). Le tutorial inclut les explications pour crée des dataset personalisé.
+Le lien est mort et redirige sur un autre site, une recherche rapide n'a pas permis de trouvé le logiciel/site butler
+le site butler : https://docs.butlerlabs.ai/reference/upload-and-extract-documents-as-a-csv-using-ui
+
+https://wandb.ai/wandb-data-science/layoutlm_sroie_demo/reports/Information-Extraction-from-Scanned-Receipts-Fine-tuning-LayoutLM-on-SROIE--VmlldzoxMjI5NzE2
+Application de layoutlmv1 sur SROIE
+Ce n'est pas vraiment un tutorial, et plus une explication et une démonstration des avantages de layoutlm.A savoir que les données
+ont été pré-processed déjà une fois avant pour évite de refaire l'ocr,donc les résultats réels peuvent être différent(bien que cela importe peu vu
+qu'on ne risque pas d'avoir les mêmes params/dataset)
+
+https://github.com/BordiaS/layoutlm
+C'est un model déjà crée, a savoir qu'on a juste a lui fournir un dataset pour l'entrainée avant de l'utilisé. On a aussi un bout de code en conda
+qu'on pourrait réutilisé dans la première piste pour l'installation
+
+https://colab.research.google.com/drive/1o8-Km-kVHtOcdEd7i9uPY6vXg7MyCN0B?usp=sharing  / https://medium.com/analytics-vidhya/extracting-structured-data-from-invoice-96cf5e548e40
+Utilise PICK-pytorch sur du SROIE/un autre dataset d'un compétition de 2019. Pourrait être une piste
+
+https://ubiai.tools/fine-tuning-layoutlm-v2-for-invoice-recognition/
+layoutlmv2 sur un custom dataset utilisant https://ubiai.tools/
+Le résultat final retourne des images contenant les boxs de données avec un fichier json correspondant. Sa a l'air intéressant,il faudra juste
+savoir si on veut juste obtenir les résultats, ou s'il faut crée un script pour lire tout les fichiers jsons pour retiré un certain type de données
+( par exemple le total dépense sur une période)