Skip to content
GitLab
Explore
Sign in
Primary navigation
Search or go to…
Project
2
2324 Rigo
Manage
Activity
Members
Labels
Plan
Issues
Issue boards
Milestones
Wiki
Code
Merge requests
Repository
Branches
Commits
Tags
Repository graph
Compare revisions
Snippets
Build
Pipelines
Jobs
Pipeline schedules
Artifacts
Deploy
Releases
Package Registry
Model registry
Operate
Environments
Terraform modules
Monitor
Incidents
Analyze
Value stream analytics
Contributor analytics
CI/CD analytics
Repository analytics
Model experiments
Help
Help
Support
GitLab documentation
Compare GitLab plans
Community forum
Contribute to GitLab
Provide feedback
Keyboard shortcuts
?
Snippets
Groups
Projects
Show more breadcrumbs
niklaus.eggenber
2324 Rigo
Commits
966f3674
Commit
966f3674
authored
1 year ago
by
ivan.rigo
Browse files
Options
Downloads
Patches
Plain Diff
added some info on research
parent
4635cab8
No related branches found
Branches containing commit
No related tags found
No related merge requests found
Changes
1
Hide whitespace changes
Inline
Side-by-side
Showing
1 changed file
NoteProjetSemestre.txt
+44
-0
44 additions, 0 deletions
NoteProjetSemestre.txt
with
44 additions
and
0 deletions
NoteProjetSemestre.txt
+
44
−
0
View file @
966f3674
...
...
@@ -63,3 +63,47 @@ C'est un modèle déjà entrainée et utilisé dans le but d'entrainée un autre
https://nanonets.com/blog/layoutlm-explained/
https://github.com/microsoft/unilm/blob/master/layoutlm/deprecated/README.md
https://huggingface.co/docs/transformers/model_doc/layoutlm
Analyse sur les sources reçu et recherchées
FUNSD
Dataset ayant principalement des formulaires, peut être tweakable pour correspondre au besoin,mais
la structure de base demandera beaucoup de changement (le dataset contient grossièrement deux carrées,questions & réponses)
A voir si utile,mais je doute
https://www.kaggle.com/code/ritvik1909/layoutlmv1-information-extraction
Très brut, plus une présentation qu'autre chose, et les résultats ont pas l'air fou
Utilise layoutlm1
https://www.philschmid.de/fine-tuning-layoutlm
Utilise layoutlm,un élément de layoutlm2. Le tutorial s'appuye aussi sur huggingface pour pull des fonctions/crée un model qu'il déposera sur le Site
Aussi utilisé pour "visionner" la progression. Même chose que FUNSD (vu qu'il l'utilise dans le tutorial), utilisable,mais doit être tweaké (si on ne
veut pas utilisé hugging face)
https://medium.com/@matt.noe/tutorial-how-to-train-layoutlm-on-a-custom-dataset-with-hugging-face-cda58c96571c
Utilise layoutlm3 et des données personalisé (donc pas de custom dataset). Le tutorial inclut les explications pour crée des dataset personalisé.
Le lien est mort et redirige sur un autre site, une recherche rapide n'a pas permis de trouvé le logiciel/site butler
le site butler : https://docs.butlerlabs.ai/reference/upload-and-extract-documents-as-a-csv-using-ui
https://wandb.ai/wandb-data-science/layoutlm_sroie_demo/reports/Information-Extraction-from-Scanned-Receipts-Fine-tuning-LayoutLM-on-SROIE--VmlldzoxMjI5NzE2
Application de layoutlmv1 sur SROIE
Ce n'est pas vraiment un tutorial, et plus une explication et une démonstration des avantages de layoutlm.A savoir que les données
ont été pré-processed déjà une fois avant pour évite de refaire l'ocr,donc les résultats réels peuvent être différent(bien que cela importe peu vu
qu'on ne risque pas d'avoir les mêmes params/dataset)
https://github.com/BordiaS/layoutlm
C'est un model déjà crée, a savoir qu'on a juste a lui fournir un dataset pour l'entrainée avant de l'utilisé. On a aussi un bout de code en conda
qu'on pourrait réutilisé dans la première piste pour l'installation
https://colab.research.google.com/drive/1o8-Km-kVHtOcdEd7i9uPY6vXg7MyCN0B?usp=sharing / https://medium.com/analytics-vidhya/extracting-structured-data-from-invoice-96cf5e548e40
Utilise PICK-pytorch sur du SROIE/un autre dataset d'un compétition de 2019. Pourrait être une piste
https://ubiai.tools/fine-tuning-layoutlm-v2-for-invoice-recognition/
layoutlmv2 sur un custom dataset utilisant https://ubiai.tools/
Le résultat final retourne des images contenant les boxs de données avec un fichier json correspondant. Sa a l'air intéressant,il faudra juste
savoir si on veut juste obtenir les résultats, ou s'il faut crée un script pour lire tout les fichiers jsons pour retiré un certain type de données
( par exemple le total dépense sur une période)
This diff is collapsed.
Click to expand it.
Preview
0%
Loading
Try again
or
attach a new file
.
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Save comment
Cancel
Please
register
or
sign in
to comment