Skip to content
Snippets Groups Projects
Commit 966f3674 authored by ivan.rigo's avatar ivan.rigo
Browse files

added some info on research

parent 4635cab8
No related branches found
No related tags found
No related merge requests found
......@@ -63,3 +63,47 @@ C'est un modèle déjà entrainée et utilisé dans le but d'entrainée un autre
https://nanonets.com/blog/layoutlm-explained/
https://github.com/microsoft/unilm/blob/master/layoutlm/deprecated/README.md
https://huggingface.co/docs/transformers/model_doc/layoutlm
Analyse sur les sources reçu et recherchées
FUNSD
Dataset ayant principalement des formulaires, peut être tweakable pour correspondre au besoin,mais
la structure de base demandera beaucoup de changement (le dataset contient grossièrement deux carrées,questions & réponses)
A voir si utile,mais je doute
https://www.kaggle.com/code/ritvik1909/layoutlmv1-information-extraction
Très brut, plus une présentation qu'autre chose, et les résultats ont pas l'air fou
Utilise layoutlm1
https://www.philschmid.de/fine-tuning-layoutlm
Utilise layoutlm,un élément de layoutlm2. Le tutorial s'appuye aussi sur huggingface pour pull des fonctions/crée un model qu'il déposera sur le Site
Aussi utilisé pour "visionner" la progression. Même chose que FUNSD (vu qu'il l'utilise dans le tutorial), utilisable,mais doit être tweaké (si on ne
veut pas utilisé hugging face)
https://medium.com/@matt.noe/tutorial-how-to-train-layoutlm-on-a-custom-dataset-with-hugging-face-cda58c96571c
Utilise layoutlm3 et des données personalisé (donc pas de custom dataset). Le tutorial inclut les explications pour crée des dataset personalisé.
Le lien est mort et redirige sur un autre site, une recherche rapide n'a pas permis de trouvé le logiciel/site butler
le site butler : https://docs.butlerlabs.ai/reference/upload-and-extract-documents-as-a-csv-using-ui
https://wandb.ai/wandb-data-science/layoutlm_sroie_demo/reports/Information-Extraction-from-Scanned-Receipts-Fine-tuning-LayoutLM-on-SROIE--VmlldzoxMjI5NzE2
Application de layoutlmv1 sur SROIE
Ce n'est pas vraiment un tutorial, et plus une explication et une démonstration des avantages de layoutlm.A savoir que les données
ont été pré-processed déjà une fois avant pour évite de refaire l'ocr,donc les résultats réels peuvent être différent(bien que cela importe peu vu
qu'on ne risque pas d'avoir les mêmes params/dataset)
https://github.com/BordiaS/layoutlm
C'est un model déjà crée, a savoir qu'on a juste a lui fournir un dataset pour l'entrainée avant de l'utilisé. On a aussi un bout de code en conda
qu'on pourrait réutilisé dans la première piste pour l'installation
https://colab.research.google.com/drive/1o8-Km-kVHtOcdEd7i9uPY6vXg7MyCN0B?usp=sharing / https://medium.com/analytics-vidhya/extracting-structured-data-from-invoice-96cf5e548e40
Utilise PICK-pytorch sur du SROIE/un autre dataset d'un compétition de 2019. Pourrait être une piste
https://ubiai.tools/fine-tuning-layoutlm-v2-for-invoice-recognition/
layoutlmv2 sur un custom dataset utilisant https://ubiai.tools/
Le résultat final retourne des images contenant les boxs de données avec un fichier json correspondant. Sa a l'air intéressant,il faudra juste
savoir si on veut juste obtenir les résultats, ou s'il faut crée un script pour lire tout les fichiers jsons pour retiré un certain type de données
( par exemple le total dépense sur une période)
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment