Skip to content
Snippets Groups Projects
Commit fd67e208 authored by ivan.rigo's avatar ivan.rigo
Browse files

Added Jbd Update

parent 5342b5fe
No related branches found
No related tags found
No related merge requests found
...@@ -12,20 +12,20 @@ But ...@@ -12,20 +12,20 @@ But
Introduction Introduction
Document business peuvent prendre différentes formes Document business peuvent prendre différentes formes
Q? = Des premiers essais [7,9,15,19,21,24,,2829] à parler? Q? = Des premiers essais [7,9,15,19,21,24,28,29] à parler?
Limité car nécessite aide humain pour labelisé des données d'entrainement Limité car nécessite aide humain pour labelisé des données d'entrainement
Layoutlm nécessite en entrée le texte avec ces coordoonées,mais en plus Layoutlm nécessite en entrée le texte avec ces coordoonées,mais en plus
la position relative du texte la position relative du texte
Q? = an image embedding for scanned token image within document Q? = an image embedding for scanned token image within document
Q? = Utilise MVLM et MDC Loss Utilise MVLM et MDC Loss
focus pour la partie d'entrainement, plus particulièrement document physique focus pour la partie d'entrainement, plus particulièrement document physique
document digital sont moins difficile à s'adapter document digital sont moins difficile à s'adapter
SOTA = Best performing for specific task/research area SOTA = Best performing for specific task/research area
LayoutLM 2 LayoutLM 2
Q? = Bert expliquer Bert expliquer à comprendre
architecture BERT presque similaire a multi-layer bidirectional Transformer encoder architecture BERT presque similaire a multi-layer bidirectional Transformer encoder
Bert utilise MLM & NSP pour pre-entrainement Bert utilise MLM & NSP pour pre-entrainement
...@@ -89,5 +89,28 @@ LayoutLM 2 ...@@ -89,5 +89,28 @@ LayoutLM 2
NOTE PROF
LayoutLM Language Model
Pour résumée,on peut reprendre l'intro
Introduction
Description modèle précédent et limitation
CV = Computer Vision
Embedding = Vecteur
ImgEmbedding : après avoir trouver position relatif, on fait le lien entre le mot et l'img
pour déterminé le style
B I E S O Token
Beginning
Inside
Ending
Single
Outside
https://medium.com/dair-ai/papers-explained-10-layout-lm-32ec4bad6406 https://medium.com/dair-ai/papers-explained-10-layout-lm-32ec4bad6406
\ No newline at end of file
15-17
Le programme va prendre les données pour crée un dataset d'entrainement et de test
Les données sont des dossiers contenant 3 dossier avec Box/entity/img
Box contient les positions des 4 points englobant le texte
Entity contient les labels avec le texte correspondant dans l'image et le label
img qui contient l'image correspondant au deux fichier précédent
Fonction dataset creator
Les trois fichiers ont le même nom.
bbox_labeled va normalement assigné les labels en utilisant le fichier entity (le label correct
pour les bons texts,et O pour le reste) avec assign Labels
On appel assign label qui renverra un dataframe panda.
Elle reaplique un dernier test pour vérifié les labels avant de renvoyé un tableau contenant
toute les données importants
Fonction assign_labels
On reçoit un string et le contenue de entites, et on vérifie soit qu'il soit pareil, soit
qu'il match en utilisant la fonction SequenceMatcher
18-19
Création du dossier stockant le dataset en parcourant le dataset crée au ligne 16-17
On crée trois fichier : x,x_box,x_image,
box contient les coordonnées sur l'image, image celle après normalisation
x contiendra le label et le mot, on sépare les phrases en plusieurs morceux,bien qu'ils auront
les mêmes labels
25-34
Création d'un fichier label pour donner les catégories a prédire
on pourrait supprimer 36-37 qui sont utilisé pour lancer l'entrainement
TODO 0 → 100644
Next time
Comprendre SROIE pour rapport avant mardi
Vérifiée git dans l'article
Vérifiée si similaire à celui de l'article
Comprendre/Expliquer Figure 2, voir s'il existe un tuto
Lowlow Priority
2.4 Eclarcir graphe
Prof : Expliquer BERT/3.4/Baseline
\ No newline at end of file
| Date | Travail à réaliser | Travail effectué | Problèmes rencontrés | Commentaires | | Date | Travail à réaliser | Travail effectué | Problèmes rencontrés | Commentaires |
| ---------- | ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ | | ---------- | ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ |
| 13.05.2024 | ... | ..... | - | - | | 13.05.2024 | Début du projet et prise de contact avec le professeur encadrant | Contact effectuée Vendredis 17.05.2024 | - | Premier objectif pour 23.05.2024 : Relire l'article scientifique pour se remettre dans le projet et analyse le code pour mieux le comprendre |
...@@ -63,4 +63,4 @@ if __name__ == "__main__": ...@@ -63,4 +63,4 @@ if __name__ == "__main__":
merged = data_merge.merge(data_prediction_category, left_index=True, right_index=True) merged = data_merge.merge(data_prediction_category, left_index=True, right_index=True)
merged_groups = list(merged.groupby("image")) merged_groups = list(merged.groupby("image"))
display_prediction(merged_groups[6]) display_prediction(merged_groups[0])
\ No newline at end of file \ No newline at end of file
prediction.png

775 KiB | W: | H:

prediction.png

558 KiB | W: | H:

prediction.png
prediction.png
prediction.png
prediction.png
  • 2-up
  • Swipe
  • Onion skin
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment