Ajout de la structure de la doc et des idéés a expliquer

0f2584a8 · Ivan Pavlovich · 6e78bebe · 0f2584a8 · 0f2584a8
Commit 0f2584a8 authored 1 month ago by Ivan Pavlovich
--- a/memoire/idee.md
+++ b/memoire/idee.md
+# PubMed
+- Expliquer ce que PubMed est.
+- Expliquer le contenue de Pubmed (type d'article, répartition des sources, etc)
+- Expliquer le contenue des articles
+- Expliquer ce qu'un MeSH Term
+- Expliquer comment la recherche d'articles fonctionne (le term, les fields, l'ATM, les opérateurs, ...)
+- Expliquer la structure de l'API Pubmed (ESearch, EFetch)
+- Expliquer les restriction de l'API (10000 articles, nombre de requette par seconde, ...)
+- Expliquer les testes effectuer sur le nombre d'articles posté en moyenne sur PubMed
+# Modèles
+- Expliquer ce qu'un Zero-Shot classifier
+- Expliquer la différence entre un Few-Shot et un Zero-Shot classifier
+- Expliquer ce qu'est HuggingFace et ses transformeur / pipline
+- Expliquer ce qu'une LLM
+- Expliquer ce qu'une LLM hostée
+- Expliquer les problèmes des LLM
+- Expliquer ce qu'est Ollama
+- Expliquer les problèmes des modèles locaux
+# Tests
+- Expliquer pourquoi un système de teste de modèle a du être développer
+- Expliquer ce qui a été teste (efficassité des modèles, efficassité des modèles en fonction de la longeure du texte a classifier, ...)
+- Expliquer comment le dataset a été créé
+- Expliquer les mesures utiliser pour calculer l'efficassité d'un modèle (confusion matrix, recall, TNR, precision et F1 Score)
+- Parler des résultats obtenue
--- a/memoire/structure.md
+++ b/memoire/structure.md
+# Source de Données PubMed
+- Définition et rôle de PubMed
+- Répartition des sources d'articles
+## Contenu des articles
+- Structure et contenue des articles
+### MeSH Terms
+- Définition
+- Origine et fonctionnement des MeSH Terms
+## Recherche et fonctionnement de l'API
+- Présentation générale de l’API (E-Utilities)
+- Structure et fonctionnement de l’API
+### Recherche d’articles
+- Mécanisme de recherche
+- Définition et utilisation des "fields"
+- Opérateurs booléens et syntaxe
+### ATM
+- Définition
+- Explication du fonctionnement
+### Restrictions et limitations
+- Limitations d’accès et quotas
+- Contraintes sur le nombre d’articles récupérables
+## Études statistiques
+- Analyse du volume d’articles publiés
+- Objectifs de l’étude
+# Classification des contenus
+- Objectif et importance de cette partie
+- Problématiques et enjeux de la classification
+## Zero-Shot Classification
+- Définition et principe
+### Hugging Face et Transformers
+- Présentation de Hugging Face
+- Explication des Transformers / Pipelines
+### Choix des Modèles
+- Méthodologie de sélection des modèles
+- Justification du modèle retenu
+## Few-Shot Classification
+- Définition et principe
+- Différences avec le Zero-Shot Classification
+## Large Language Models (LLM)
+- Définition et rôle des LLM
+### Modèles hébergés
+- Définition et fonctionnement
+- Contraintes et limitations
+### Modèles locaux
+- Définition et fonctionnement
+- Contraintes et défis techniques
+- Présentation d’Ollama
+### Problèmes liés aux LLM
+- Limitations et biais des modèles
+- Contraintes éthiques et techniques
+# Système de tests et validation des modèles
+- Raison du développement du système de tests et validation
+- Objectifs et enjeux des tests
+## Critères de validation et méthodologie
+- Évaluation de l’efficacité des modèles en général
+- Impact de la longueur des textes sur l’efficacité des modèles
+- Processus de création du dataset de test
+## Mesure d'évaluation
+- Définition et importance des métriques utilisées
+### Matrice de confusion
+- Définition
+- Méthode de construction et interprétation
+### Recall, Précision, Spécificité
+- Définition et rôle
+- Méthode de calcul
+### F1 Score
+- Définition et rôle
+- Méthode de calcul
+## Résultats et analyses
+- Présentation des résultats obtenus
+- Analyse et interprétation des performances
\ No newline at end of file