From 0f2584a882d60f2da941cb2568390ecd349c2284 Mon Sep 17 00:00:00 2001
From: Ivan Pavlovich <ivan.pavlovic@hes-so.ch>
Date: Wed, 19 Mar 2025 09:58:48 +0100
Subject: [PATCH] =?UTF-8?q?Ajout=20de=20la=20structure=20de=20la=20doc=20e?=
 =?UTF-8?q?t=20des=20id=C3=A9=C3=A9s=20a=20expliquer?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 memoire/idee.md      |  26 ++++++++++
 memoire/structure.md | 119 +++++++++++++++++++++++++++++++++++++++++++
 2 files changed, 145 insertions(+)
 create mode 100644 memoire/idee.md
 create mode 100644 memoire/structure.md

diff --git a/memoire/idee.md b/memoire/idee.md
new file mode 100644
index 000000000..004b4f915
--- /dev/null
+++ b/memoire/idee.md
@@ -0,0 +1,26 @@
+# PubMed
+- Expliquer ce que PubMed est.
+- Expliquer le contenue de Pubmed (type d'article, répartition des sources, etc)
+- Expliquer le contenue des articles
+- Expliquer ce qu'un MeSH Term
+- Expliquer comment la recherche d'articles fonctionne (le term, les fields, l'ATM, les opérateurs, ...)
+- Expliquer la structure de l'API Pubmed (ESearch, EFetch)
+- Expliquer les restriction de l'API (10000 articles, nombre de requette par seconde, ...)
+- Expliquer les testes effectuer sur le nombre d'articles posté en moyenne sur PubMed
+
+# Modèles
+- Expliquer ce qu'un Zero-Shot classifier
+- Expliquer la différence entre un Few-Shot et un Zero-Shot classifier
+- Expliquer ce qu'est HuggingFace et ses transformeur / pipline
+- Expliquer ce qu'une LLM
+- Expliquer ce qu'une LLM hostée
+- Expliquer les problèmes des LLM
+- Expliquer ce qu'est Ollama
+- Expliquer les problèmes des modèles locaux
+
+# Tests
+- Expliquer pourquoi un système de teste de modèle a du être développer
+- Expliquer ce qui a été teste (efficassité des modèles, efficassité des modèles en fonction de la longeure du texte a classifier, ...)
+- Expliquer comment le dataset a été créé
+- Expliquer les mesures utiliser pour calculer l'efficassité d'un modèle (confusion matrix, recall, TNR, precision et F1 Score)
+- Parler des résultats obtenue
diff --git a/memoire/structure.md b/memoire/structure.md
new file mode 100644
index 000000000..8fc6a61ab
--- /dev/null
+++ b/memoire/structure.md
@@ -0,0 +1,119 @@
+# Source de Données PubMed
+
+- Définition et rôle de PubMed
+- Répartition des sources d'articles
+
+## Contenu des articles
+
+- Structure et contenue des articles
+
+### MeSH Terms
+
+- Définition
+- Origine et fonctionnement des MeSH Terms
+
+## Recherche et fonctionnement de l'API
+
+- Présentation générale de l’API (E-Utilities)
+- Structure et fonctionnement de l’API
+
+### Recherche d’articles
+
+- Mécanisme de recherche
+- Définition et utilisation des "fields"
+- Opérateurs booléens et syntaxe
+
+### ATM
+
+- Définition
+- Explication du fonctionnement
+
+### Restrictions et limitations
+
+- Limitations d’accès et quotas
+- Contraintes sur le nombre d’articles récupérables
+
+## Études statistiques
+
+- Analyse du volume d’articles publiés
+- Objectifs de l’étude
+
+# Classification des contenus
+
+- Objectif et importance de cette partie
+- Problématiques et enjeux de la classification
+
+## Zero-Shot Classification
+
+- Définition et principe
+
+### Hugging Face et Transformers
+
+- Présentation de Hugging Face
+- Explication des Transformers / Pipelines
+
+### Choix des Modèles
+
+- Méthodologie de sélection des modèles
+- Justification du modèle retenu
+
+## Few-Shot Classification
+
+- Définition et principe
+- Différences avec le Zero-Shot Classification
+
+## Large Language Models (LLM)
+
+- Définition et rôle des LLM
+
+### Modèles hébergés
+
+- Définition et fonctionnement
+- Contraintes et limitations
+
+### Modèles locaux
+
+- Définition et fonctionnement
+- Contraintes et défis techniques
+- Présentation d’Ollama
+
+### Problèmes liés aux LLM
+
+- Limitations et biais des modèles
+- Contraintes éthiques et techniques
+
+
+# Système de tests et validation des modèles
+
+- Raison du développement du système de tests et validation
+- Objectifs et enjeux des tests
+
+## Critères de validation et méthodologie
+
+- Évaluation de l’efficacité des modèles en général
+- Impact de la longueur des textes sur l’efficacité des modèles
+- Processus de création du dataset de test
+
+## Mesure d'évaluation
+
+- Définition et importance des métriques utilisées
+
+### Matrice de confusion
+
+- Définition
+- Méthode de construction et interprétation
+
+### Recall, Précision, Spécificité
+
+- Définition et rôle
+- Méthode de calcul
+
+### F1 Score
+
+- Définition et rôle
+- Méthode de calcul
+
+## Résultats et analyses
+
+- Présentation des résultats obtenus
+- Analyse et interprétation des performances
\ No newline at end of file
-- 
GitLab